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INTRODUCTION 


La variété des outils mathématiques auxquels le calcul des 
probabilités et la statistique doivent avoir recours augmente 
chaque jour 3 à la théorie des fonctions de variable réelle, 
qui constituait l'essentiel du bagage analytique nécessaire à 
leur étude dans le premier quart de ce siècle, se sont ajoutés 
depuis, le calcul matriciel, la théorie de la transformation de 
FOURIER, celles des équations aux dérivées partielles, pour ne 
citer que des exemples classiques, 


En retour, sous la pression d'une demande technique sans 
cesse accrue, qui s'étend de la psychologie à la production in- 
dustrielle de masse, et suivant les lignes de force de son déve- 
loppement propre, le calcul des probabilités a enrichi de pro- 
blèmes nouveaux et de solutions originales les disciplines aux- 
quelles ces emprunts avaient été effectués, 


L'algèbre n'a pas fait exception à cette tendance comme en 
témoignent les travaux de Mr, le Pr. FRECHET sur les systèmes 
d'évènements compatibles et dépendants, qui sont des algèbres de 
BOOLE, aussi bien que des applications mineures telles que l'em- 
ploi des propriétés des corps algébriques pour la solution de 
certains problèmes de planification des expériences. En particu- 
lier, la théorie des treillis semble prédestinée à tenir un rôle 
important dans de nombreux chapitres du calcul des probabilités, 


Le présent travail espère être une illustration nouvelle de 
ces possibilités et nous avons tenu à conduire l'exposé depuis 
les fondements abstraits les plus généraux, les relations d'é- 
quivalence et d'ordre, jusqu'aux applications à la sérologie ou 
la génetique mendelienne, 


Ce programme déjà trop ambitieux eut sans doute été irréa- 
lisable si nous avions dû maintenir à tous les niveaux lé degré 
maximum de généralité. Nous avons donc sacrifié délibérément 
tout ce qui ne relevait pas des méthodes de la théorie des en- 
sembles finis. Celles-ci d'ailleurs suffisaient pour aborder les 
problèmes précis que nous avions en vue et on verra, en outre 
que nombre d'énoncés ont été établis de telle sorte qu'ils s'ap- 
pliqueraient sans modification à des cas plus généraux. La ran- 
çon en serait une formulation plus lourde des démonstrations 
risquant peut-être parfois d'obscurcir la nature véritable du 
lien logique qui tresse le raisonnement, 
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Venons en maintenant à l'objet de cette étude ; la théorie 
de l'information. Ici aussi, il s'agit d'une discipline nouvelle 
dont les frontières d'aujourd'hui indiquant la direction des 
progrès futurs plus que les limites reconnues des concepts et 
des méthodes. I1 était tentant d'en chercher une unificatiom 
même restreinte et même provisoire et d'appliquer ses techniques 
à une classe de problèmes qui put mettre en évidence la diver— 
sité et l'unité des notions qui se trouvaient ainsi regroupées; 


Enfin, nous avons essayé de faire oeuvre pratique. Nous 
voudrions espérer que les statisticiens, aux prises comme nous 
avec les réalités parfois si peu accomodantes de la recherche 
industrielle ou scientifique, trouveront dans ce travail, non 
seulêment des suggestions, mais aussi des résultats directement 
utilisables, 


En fonction de ces objectifs, l'exposé a été scindé en 
trois parties dont chacune forme un tout 3 


1. Dans la première partie, on rappelle certaines notions 
algébriques qui réapparaîtront constamment par la suite; rela- 
tions d'ordre, treillis distributifs, enfin treillis de parti-— 
tions qui généralisent très directement la structure déjà bien 
connue de treillis de toutes les relations d'équivalence d'un 
ensemble, 


11 s'agit là d'un exposé schématique de résultats presque 
tous classiques où l'accent est mis sur les concepts spéciale- 
ment efficaces dans le cas fini tels que les éléments irréduc- 
tibles ou le groupoïde des intervalles, par exemple. 


= 


Les auteurs à notre sens, donnent un sens trop restrictif 
au terme de valuation des éléments d'un treillis. Nous avons 
tenté de replacer cetté notion dans une perspective plus natu- 
relle, comme fonction numérique associée à la fois aux éléments 
d'une structure d'ordre et au groupoïde des intervalles que dé- 
finit celle-ci. La définition proposée permet d'obtenir formel- 
lement toutes les valuations d'un treillis de partitions fini, 


Trois exercices (calcul de l'expression formelle des cumu- 
lants en fonction des moments, — fonction génératrice des proba- 
bilités de certaines "statistiques d'ordre" — forme générale des 
distributions de la statistique quantique) illustrent les possi— 
bilités de ces méthodes dans le calcul dés probabilités, 


II, Dans deux théories indépendantes, avaient déjà été dé- 
finis des êtres mathématiques nommés "information" # l'informa- 
tion de FISHER en théorie de l'estimation et l'information dé 
SHANNON en théorie des communications. Dans cette seconde partie 
on s'efforce de justifier une définition générale des "informa— 
tions" par une analyse de propriétés que doit a priori posséder. 
un tel être pour généraliser valablement les deux quantités qui 
viennent d'être évoquées, On aboutit à une classe spéciale de 
valuations du treillis des partitions des états observables 
d'une aléatoire. Un opérateur linéaire reste disponible dans 
cette expression. Paur un choix convenable de celui-ci, on re- 
trouve les deux types spéciaux que l'on voulait unifier mais, 
aussi, à côté d'êtres apparemment nouveaux tels que les informa- 
tions de tri, une quantité que nous nous proposons d'appeler 
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"Information de Wald" en raison du rôle capital que cet auteur 
lui a fait jouer tacitement dans l'analyse séquentielle, 


De la systématisation des résultats découle, comme d'usage, 
une grande économie de démonstrations et des possibilités d'ex- 
tensions de concepts tels que l'exhaustivité de DARMOIS, l'addi— 
tivité,retc.,.. 


Enfin, d'autres grandeurs familières du calcul des probabi- 


lités (cumulants, chicarré) présentent avec les informations des 


analogies qui sont brièvement discutées, 


Comme dans la première partie, l'originalité ne se trouve 
que dans le mode d'exposition qui permet de rassembler des théo- 
ries dont le lien n'avait pu être interprété jusqu'ici, que de 
façon assez superficielle, Cette confrontation fait apparaître 
des problèmes non encore résolus, d'un intérêt. certain, aussi 
bien du point de vue physique que de celui des mathématiques 
pures, 

æ 


III. Les "méthodes de groupage" qui font l'objet de la 
troisième partie n'ont au contraire presque jamais été étudiées. 
On construit un modèle mathématique très simple qui représente 
certains systèmes d'objets tels qu'une seule observation soit 
éventuellement susceptible de caractériser entièrement plusieurs 
d'entre eux :; le type en est l'observation du produit d'une 
série de nombres qui permet d'apprendre, soit qu'ils sont tous 
différents de zéro, soit que l'un d'eux au moins est nul, Diver- 
ses situations concrètes peuvent s'y ramener,semble-t-il,et l'on 
énonce avec l'aide des concepts algébriques décrits dans la pre- 
mière partie quelques propriétés générales de ce modèle, 


L'épplication des grandes méthodes de la statistique mathé- 
matique (test, estimation) conjointement avec les notions déve- 
loppées dans la seconde partie livre une gamme d'exercice dans 
lesquels se manifestent l'utilité et le sens des diverses in-— 
formations. 


A ce propos, on introduit comme substitut des solutions op— 
timales — trop souvent inaccessibles pour des raisons de comple-— 


xité combinatoire — la notion de "tactique localement optimale" 
qui semble nouvelle et qui dépasse d'ailleurs très largement le 
cadre de ce travail, 


Références et bibliographie. Le matériel présenté dans la pre- 


mière partie est le plus souvent classique et presque toutes les 
indications utiles se trouvent dans l'ouvrage fondamental de 
G. BIRKHOFF "Theory of Lattices", ou en français dans la "Théo- 
rie des Structures" de GLIVENKO. Nous avons jugé superflu d'en 
reproduire la bibliographie et nous sommes contentés d'intro- 
duire dans le cours du texte les références supplémentaires né- 
cessitées par les divers points particuliers étrangers à la théo- 
rie des treillis, 


Il en est de même pour la troisième partie qui ne fait ap- 
pel qu'aux éléments les plus familiers de la statistique mathé- 
matique quand il ne s'agit pas de notions déjà discutées dans la 
seconde partie,la seule pour laquelle soit apparu nécessaire de 
compiler une bibliographie systématique. 
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Nous exprimons notre reconnaissance respectueuse à Monsieur 
le Professeur Maurice FRECHET qui a bien voulu nous faire l'hon- 
neur de présider la soutenance de cette thèse, à Monsieur le Do- 
yen Albert CHATELET qui fût notre premier Maître de cette Facul-— 
té, et à Monsieur le Professeur Georges DARMOIS qui nous a cons-— 
tamment guidé de ses conseils et de ses encouragements. 


On verra par ailleurs dans le cours de ce mémoire, la part 
essentielle qui revient à l'enseignement de Monsieur A. CHATELET 
et aux travaux de Monsieur M. FRECHET et de Monsieur G. DARMOIS. 


Nous ne saurions nons plus ne pas exprimer notre respec— 
tueuse gratitude à Monsieur le Professeur Raymond TURPIN qui de-— 
puis de nombreuses années nous a associé à ses recherches pro- 
génésiques dans le Centre qu'il a fondé à l'Hôpital Saint-Louis 
et à Monsieur le Professeur Pierre GAVAUDAN qui nous a fait par- 
ticiper à ses travaux de physiologie et dont l'amitié et l'exem-— 
ple nous ont été le plus précieux des encouragements, 


Enfin ce travail n'aurait pu être accompli sans le soutien 
de l'Institut National d'Hygiène, de son Directeur Monsieur le 
Professeur Louis BUGNARD, de Monsieur Pierre DENOIX, Chirurgien 
des Hôpitaux de Paris, et l'aide généreuse du Fonds d'étude de 
la Société médicale des Hôpitaux de Paris; qu'ils reçoivent, ici 
le témoignage de notre reconnaissance, 
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PRÉLIMINAIRES ALGÉBRIQUES Il 


l. - RELATIONS D'ÉQUIVALENCE ET RELATIONS D'ORDRE 


Etant donné un ensemble E d'éléments a, b, .., une relation 
d'équivalence (1) sera par définition une relation entre élé- 
ments de E, notée aRb, satisfaisant aux trois conditions sui- 
vantes 3 


1° =" Réflexivité : pour tout a ; a R a, 
29 — Symétrie : pour tout a et b 3; si aRb, alors # bRa. 


3° — Transitivité : pour tout a, b et c : si aRb et 
bRc, alors : akRc, 


On démontre que R induit sur E une partition en classes 
d'équivalence X, Y ..... Z. Celles-ci forment un système de sous 
ensembles de E disjoints,(c'est-à-dire deux à deux sans élément 
commun) tels que tout élément de E soit contenu dans l'un d'eux 
et enfin satisfaisant à cette condition que aRb, si et seulement 
si a et b sont membres du même sous-ensemble, 


De deux relations d'équivalence R, et R, sur un ensemble E 
R, sera dit "plus fine" que R; si et seulement si, pour tout a 
et tout b, aR;b entraîne a R; b. 


Dans ce cas, les classes X, Y, Z ..., de R;, sont elles- 
mêmes partitionnées en les classes Xy X2, oo Xkxy Yo Yocse Yi, 
Ze... .,. Si À est une classe de R, et B une classe de R,, ou bien 
A et B sont sans élément commun ou bien A est toute entière 
contenue dans B, 


Enfin, on féra usage de la notion de fermeture transitive R 
d'une relation quelconque R de E; par définition R sera la plus 
fine des relations d'équivalence telle que pour tout a et b si 
aRb, alors aRb. Cette définition est justifiée par le fait qu'on 
peut prouver que R est unique pour un E et un R quelconque, 


Les relations d'ordre sont des relations 5 
19 — Réflexives 
29 = Transitives 


39 — Acycliques c'est-à-dire telles que l'on ait jamais ; 
akb et bRa, sauf si a = b. 

On voit donc qu'elles s'opposent aux relations d'équivalence 
par le fait que l'on a remplacé la condition de symétrie par son 
contraire qui est l'acyclicité. 


(1) Pour un exposé complet de ces notions sur les relations, on consultera 
avec fruit le travail d'ensemble de $ J.RIGUET (1951) - Théorie des rela- 
tions binaires — (Thèse Paris). 
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Les exemplés les plus familiers de relation d'ordre sont 
les relations "plus petit ou égal" entre grandeurs réelles et la 


relation "être contenu dans" entre sous-ensembles et ensembles, 
Il est commode d'emprunter à ces cas particuliers les notations 


<ou cpour représenter une relation d'ordre quelconque. 


n appellera "ordre dual" d'une relation d'ordre R la rela- 
tion R définie par akb si, et seulement si, bRa. On vérifie sans 
päne que est bien une relation d'ordre en même temps que R. 


Dérivant de la relation d'ordre, on fera usage dans les 
structures finies de la relation de consécutivité. b sera dit 
“consécutif," à a‘! ou "couvrir a!'! si acb et s'il n'existe 
aucun c différent de a et de b tel que acc.cb. 


Si acb, une chaîne complète entre a et b sera une suite 
d'éléments ci ( O<i<sk ) tels que a = ©, ; b = c; et qu'enfin pour 
tout i, ci,, couvre c}, On appellera k la longueur de la chaîne. 


Correspondant en quelque sorte à la notion de classe d'é- 
quivaience, nous trouverons ici la notion d'intervalles. Par dé- 
finition l'intervalle (a, b ) sera le sous-ensemble de E formé 
par les éléments x tels que acx et xcb. L'expression "intervalle 
(a, b)"n'aura donc de sens que si acb. Si b couvre a, l'inter- 
vaile (a,b) sera réduit à ces deux éléments, ce sera donc un in- 


tervalle minimum. Les intervalles dégénérés qu'il est commode de 
considérer formellement seront les intervalles du type (x, x). 


11 sera utile de considérer sur les intervalles l'opération 
de composition associative mais non partout définie suivante : 


= (a,d) si ab 5 b = c et ccd 
(a,b) (c,d) 
non défini dans tous les autres cas, 


E étant un ensemble ordonné, l'ensemble de ses intervalles 
munis de cette loi de composition sera appelé le "groupoïde des 
intervalles de E " ,. Les intervalles dégénérés en sont les idem- 
potents puisque (aa)(aa})=(aa })s Cette définition, 
généralise et restreint en même temps la notion déjà classique 
de ‘"'groupoîïde de BRANDT", 


Enfin, étant donnée une relation d'ordre R et une relation 
d'équivalence R' entre éléments dont les classes sont X, Y ...., 
toutes deux définies sur le même ensemble, nous dirons que R* 
est compatible avec R si la relation R entre classes définies 
par $ X R Y s'il existe a (X et b ( Y telles que aRb est une 
relation d'ordre entre ces mêmes classes n'entraînant aucune 
autre relation de la forme XRY et YRX (ce qui pourrait être le 
cas si l'on avait à la fois par exemple : 


a , at (X et b, bt À Y et aRb et b! R a! ). 


Nous appellerons cette nouvelle structure la structure quor 
tient EÏR' de E par R'. On peut démontrer que si R' n'était pas 
compatible avec R, il existerait une relation d'équivalence R'! 
unique, moins fine que R', compatible avec R et telle que toute 
autre relation d'équivalence satisfaisant à ces conditions soit 
moins fine qu'elle, Nous pouvons donc sans ambiguïté aucune as- 
ere à une relation d'ordre R sur E une relation d'ordre R sur 
EtR!t; 
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On fera attention au fait qu'à une structure d'ensemble or-— 
donnée correspondent deux familles de relation d'équivalence : 


les relations entre éléments dont nous venons de dire un 
mot et qui induisent des structures quotient de l'ensemble. 

les relations entre intervalles qui induisent au contraire 
des structures quotient du groupoÿde des intervalles, 

La plus simple d'entre ces dernières est la relation d'iso 
morphie R définie par # 

( a, D DRE at, b'}) si et seulement si,il existe une corres- 
pondance biunivoque <—+ entre les éléments ci de l'intervalle 

a, b ) et c'i de ( a', b' }) telle que si © <— c' et crc 
& <C: soit équivalent à C! < C\. 

Pour terminer, nous rappellerons que si E et E' sont deux 
ensembles munis chacun d'une relation d'ordre R et R', le pro- 
duit direct E X E*' est muni lui aussi de façon naturelle de la 
relation d'ordre R'' définie par # 


Ba Tr at) RAIN D x D') sivet-seulement si, à Rib etat RUAb'S 
Naturellement tous les intervalles ((axa'), (bxa')) où a et 


b sont fixés et où a' parcourt E' sont isomorphes entre eux et 
isomorphes à E' 


I. - TREILLIS 


Nous allons maintenant isoler parmi les relations d'ordre 
une famille satisfaisant à des conditions beaucoup plus strictes 
qui nous permettront de traiter l'ensemble E comme une structure 
algébrique. 

Définition ; Une relation d'ordre sur E est une rela— 
tion d'ordre latticiel si et seulement si pour toute famille 

F formée d'éléments a, b ,..., c de E il existe un élément 

x et un élément y tels que : 


1° Pour tout a-F3# xcacy 


2° Pour toute autre paire z, u satisfaisant à la 
condition précédente: zexcycu, 


Un exemple familier d'ordre latticiel est celui des ensembles 
convexes du plan réel ordonnés par inclusion; dans ce cas 3 


y est le plus petit ensemble convexe contenant tous les 
éléments de F; 


x est la partie commune à tous les éléments de F # (celle- 
ci pouvant d'ailleurs être vide). 


On appelle x l'intersection des éléments de F; 
y la réunion des éléments de F; 


étOoNnotem LAND 7. nc eee... 10 


s0—= 74} Urb Shslnie ete store ottteis ete sel C 
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ou encore, plus fréquemment, quand aucune confusion n'est à 
craindre # 


MAC OO) OC AE 
MASNARTOD ee TC 


On peut montrer que ces deux opérationsfiet U satisfont aux 
lois suivantes 5% 


19 — IJdempotence s pour tout a $ afa=a=aua 
29 — Associativité s pour tout a, b, © 3 
(an bp }fc = an(bnc) ; (‘aub-)urce ="a 0 (bUtet) 
39 — Commutativité s pour tout a et b 15 
(anb ) = bfa $ aUb = hUa 
49 Absorption s; pour tout a et b 3 
awf(ra UD) =.a = a 0022 nb) 


Inversement, en prenant ces égalités algébriques comme 
axiomes on pourrait reconstruire la relation d'ordre par la dé- 
finition suivante $ 


acb si et seulement si a =afb 
ou bien acb si et seulement si b=aUb 


Un ensemble muni d'une relation d'ordre latticiel sera nommé 
un treillis, 


Formellement il sera toujours possible d'adjoindre à un 
treillis un "plus petit" et "un plus grand" élément, notés, par 
exemple O et 1 tels que l'on ait pour tout a : 


OMiar= 0" > OUrar= "a ta Ni se LUSas el" 


Si le treillis est fini, O et 1 peuvent être identifiés 
respectivement à l'interséction et à la réunion de tous les élé< 
ments du treillis. 


Dans tout treillis existe une dualité canonique obtenue en 
permutant les opérationsnet U qui, comme on le voit, entrent de 
manière parfaitement symétrique dans les définitions, Autrement 


dit. R et R simultanément sont ou ne sont pas des ordres latti- 
ciels, 


On observera que si l'ensemble ordonné E est fini et s'il 
contient un plus grand élément, il suffit pour qu'il soit un 
treillis qu'il possède une intersection : en effet, pour toute 
famille F (a, b, ..c ), il existe au moins un x tel que a {F 
entraîne aC x. S'il en existait plusieurs, constituant une fa- 
mille ( x, y ... z) l'intersection x,= xA yf...leserait la ré- 
union aU bU ....Uc car : 


ne Eux satisfaisant à ac F, ceci entraîne a_ x, puisque acx 
est équivalent à! afx = a et par conséquent si 


añx = af y = a on a : 
a = (añx)N (af y) = an (x y) et donc : 
ac xhy 


2° - x, est minimal parmi les éléments ayant cette proprié- 
té de par la définition même de l'intersection. 
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Le même raisonnement et son extension par dualité permet- 
tent de démontrer le résultat suivant s 


Tout intervalle d'un treillis est lui-même un treillis. 


En effet, on vient de voir que si 
a Le-blieèt ac: +:b on a aussi ae Xn xt x yx'e b 


11 est trivial de remarquer qu'un sous-treillis c'est-à- 
dire un sous-ensemble de E fermé pour les deux opérations, réu- 
nion et intersection n'est pas nécessairement un intervalle, 


TREILLIS LIBRES, ÉLÉMENTS IRRÉDUCTIBLES 


La structure de treillis que nous venons de caractériser 
est encore trop générale et dans les applications on ne se sert 
le plus souvent que de treillis satisfaisants des axiomes supplé 
mentaires, Ceux-ci peuvent être de plusieurs types dont le plus 
important est constitué par les "lois universelles" qui postu- 
lent une relation algébrique nouvelle reliant les deux opéra— 
tionsfñetlU,. 


Par exemple, nous étudierons plus loin les treillis distri- 
butifs, c'est-à-dire ceux où entre trois éléments quelconques on 
a toujours : 

a n(rpute tr) = (l'anpta) Cu laine) 


Appelons "mot latticiel" toute expression formelle bâtie à 
partir d'une famille de symboles x , y ...e Z et des deux opé-— 
rationsfetu, 

Nous conviendrons que deux mots Pi ( x , y ...Z ) et P, (x, 
Y....z) sont équivalents si l'on peut les ramener l'un à l'autre 
par l'application successive des axiomes définissant la relation 
d'ordre latticiel, 


Par exemple (nous employons ici la notation abrégée) les 
deux mots 3 


P.= a bet PB = a(ab + bc) 
sont équivalents puisque l'on a # 
a b<b ; b c<b ; donc:a b + bc<b donc: 
a. (a b.+ a €.) <a 
et d'autre part: AD MR AMD Aa BDE M DNC}; 
donc aussi:a b<a ( a b + b c ) donc , enfin, l'équivalence cher- 
chée, 


L'ensemble de ces mots ou plutôt de ces classes de mots 
constitue un treillis que l'on appelle le "treillis libre" à n 
générateurs si n symboles x y ...Z sont intervenus dans sa cons- 
truction, 


Soit maintenant U une loi donnée par l'égalité postulée de 
deux mots P et P, portant sur k symboles et soit T un certain 
treillis, P, et P, définissent chacun une fonction dans T des 
k-uples d'éléments de T. Deux cas sont alors possibles. 
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- ou bien ces deux fonctions sont toujours égales, auquel 
cas nous dirons que T satisfait à Z ou encore que T est unÿ-treik 


rs - ou bien au moins pour un k=-uple (x, Y »4-Z ) On a 


PUxo, Yo::..20) à t # t' = Pa (top Jose ss C4 Re 

Définissons alors une relation d'équivalence Ü entre élé- 
ments de T par le fait que tZt' si et seulement si il est pos- 
sible de les exprimer par deux mots réductibles l'un à l'autre 
par l'application répétée des axiomes et de l'égalité.P. =0R.". 


Il est clair que TJZ{est un treillis que l'on appellera le 
treillis quotient de T par la loi. 


Entparticulier,, si T est le treillis” libre à n genérateurs 
Tlsera le Z-treillis libre à n générateurs, 


C'est ici qu'intervient une notion nouvelle qui est parti-—. 
culièrement utile dans l'étude de ces structures s celle d'élé- 
ment irréductible, 


Nous dirons que x est un élément Uirréductible si dans 
toute ‘représentation x = yUzs: on ay = x où z = x; il revient 
au même, si le treillis est fini, de dire que x ne couvre qu'un 
seul élément qu'on notera x, « 


On définirait de même les éléments fNirréductibles par dua- 
lité canonique et l'on peut énoncer le # 


Théorème : Tout treillis est décrit de manière uni— 
voque par la seule donnée des relations d'ordre qui éxis- 
tent entre ses élémentsUirréductibles et ses éléments AN ir— 
réductibles, 


En effet, tout élément de treillis peut être caractérisé de 
manière univoque à la fois comme la réunion de tous les éléments 
U irréductibles qui sont plus petits que lui ou comme l'inter-— 
section de tous les Nirréductibles qui sont plus grands que lui. 


Comme d'habitude dans les structures algébriques, on dira 
que la relation d'équivalence R entre éléments est compatible 
avec la structure du treillis T si pour tout a et b, a! et b! 
a R b et a! R' b!' entraînent s: 


( anb ) R ( a'n bt } et ( aub )} R ( a'u b'}), 
On peut alors énoncer 3: 

Toute relation d'équivalence R compatible avec T fini 
est décrite de manière univoque par la donnée des inter— 


valies ( xoy x ) (où x est un élément U irréductible) qui 
deviennent des intervalles dégénérés dans le treillis T|R, 


L'énoncé dual vaut naturellement pour les éléments N irré- 
ductibles, 


TREILLIS DISTRIBUTIFS 


Ce sont des treillis où entre trois 


j éléments quelconques 
on a toujours l'égalité : u > 4 


+ 


(.-D.)-s3 a Ch ete } Re 
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A titre d'exemple, montrons que cet axiome est équivalent 
à sa forme duale 1: 


( D Jes(a +abt)i( actie ) = a + 'be 


En effet /msisDresteyralit: 


(a+b) (a+c) = (a+b)a + (atb) c=a+tac+be=a+boe 


11 en résulte que dans le treillis distributif libre à n 
générateurs Tn les seulsf-irréductibles sont les mots (x + y +.. 
Ath z) let lesÙ irréductibles les. mots x y..,2 (où x, :yi:.7 
constituent une partie quelconque de l'ensemble des générateurs) 
puisque l'on peut éliminer toutes les parenthèses grâce à D ou 
a e 


Un élément de T est donc caractérisé de deux manières dis— 


tinctes comme une famille de parties de l'ensemble des généra- 
teurs entre lesquels n'existe aucune relation d'inclusion,. 


Par exemple : 


a b c + a b d + c d est un élément de T, et l'élément dual asso— 
cié serait : 


( a+tb+c ) ( a+b+d) ( c+d) = a ce + a d + b ce + b d + c d 


Les exemples de treillis distributifs se rencontrent dans 
presque toutes les parties des mathématiques, Le plus classique 
est peut être celui où la relationc représente la relation de 
divisibilité entre entiers, Les opérationsU etf sont alors les 
opérations de P.G.C.D,. et de P.P.C.M. 


Cependant, nous pouvons encore particulariser deux types 
remarquables à l'intérieur des treillis distributifs, 


19 — Les chaînes (où "ensembles totalement ordonnés") dans 
lesquelles pour deux éléments quelconques x et y on a toujours 
soit xcy soit ycx et dont il est superflu de donner des exem-— 
piles. d 


29 — les algèbres de BOOLE dans lesquelles on postule à 
côté denetU, l'existence d'une opération unaire biunivoque 


partout définie la "complémentation"notée - et caractérisée par: 


ana 10m et aan 


11 n'est pas nécessaire non plus d'insister sur les algè- 
bres de BOOEE qui sont familières aux probabilistes sous la 
forme de l'algèbre des propositions et où les symbolesfñetUet — 
sont interprétés respectivement comme la conjonction (g&), la 
disjonction (V}) et la négation. 


On rappellera simplement que dans une algèbre de BOOLE, les 
seuls irréductibles ("les atomes")couvrent O (et dualement les 
seuls irréductibles sont couverts par 1). 


I1 est classique aussi que si E est fini l'ensemble de ses 
parties ordonnées par inclusion constitue une algèbre de BOOLE 
et l'on connaît l'importance dans la théorie de la mesure, de 
ces notions étendues convenablement au cas infini, 
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TREILLIS MODULAIRES 


I1 existe des cas très importants (idéaux, sous-groupes 
distingués) où la loi distributive n'est pas vérifiée mais où 
pourtant existe la loi plus faible suivante 3 loi modulaire ou 
loi de DEDEKIND 3: 


Pour=tout a, /bret cu: 


(us) s.a.n (bu (ra nee anb)u( anc) 


Par exemple, si l'on considère le treillis formé par les 
variétés iinéaires d'un espace projectif; avec afb comme inter— 
section de a et de b et al b comme "plus petite variété linéaire 
contenant a et b", on voit que si a,est une droite contenue dans 
le même plan que les points distincts b,et c,,on a : b,U c, = une 
droite et, donc, an( buc ) = un point mais (sauf si b, ou c, 
Sontisuréa, -) 3 


an beta nc = (a; nb, )u (a;n ce; )'= 1tensembleltyide rpg. 


Par contre, on peut démontrer que l'égalité (M) est toujours 
vraie dans cette structure, 


Nous dirons qu'un treillis est "modulaire" s'il satisfait à 
la loi universelle (M). Comme (M) est identiquement vrai quand 
(D) l'est elle-même, les treillis distributifs sont à fortiori 
des treillis modulaires; 


A titre d'exemple, nous allons montrer que (M) est équiva— 
lent à sa formule duale ; 


(M) =-a +.b ( a + c'} = (:a.+:b: }. ( at+c) 
en effet d'après (M) on a : 
rar bb) (a +tc0) 1e (a(tatrrc) mb ea rte) 
=sa Ca + c ) + b('afrecm = ar bia rice) 


Au contraire de ce que nous avons vu pour les treillis dis- 
tributifs, il n'est pas connu de forme canonique pour les élé- 
ments irréductibles de treillis modulaire libre à k générateurs 
sauf dans les seuls cas où celui-ci est fini c'est-à-dire quand 
KA=M2N OUT. 


Les propriétés essentielles des treillis modulaires décou-— 
lent du résultat suivant 3 


Dans un treillis modulaire, il n'existeaucun5-upled'é- 
léments distincts formant un sous-treillis du type repré 
senté par le schéma suivant où les traits verticaux indi— 
quent des relations de COR ? 


\, 
2 
En effet si la loi M était tu on aurait : 
DD a = b ( © + d ) = b ( b © F'dh)=p ot dite 


La réciproque est vraie et il s'en déduit : 


Dans un treillis modulaire fini, toutes les chaînes qui 
joignent deux éléments ont la même longueur. 
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F Une autre formulation est la suivante qui est connue sous 
le nom de Lemme de BIRKHOFF. 


Si toutes les chaînes d'un treillis sont de longueur 
finie, la condition nécessaire et suffisante pour que celui-— 
ci soit modulaire est que pour tout x et Y, l'assertion s 
"x et y couvrent xfNy" soit équivalente à s "xUy couvre 
yret=xt 


Enfin on exprimera plus généralement le théorème suivant s 
en désignant par R, la fermeture de la relation R entre inter-— 
valies définie par # 

(Prin y) Rx Ur, y) 


La condition nécessaire et suffisante pour que le 
treillis soit modulaire est que R, soit une relation d'iso-— 
morphisme, 


On appelle R, la "relation d'équivalence projective" et on 
voit que dans le contre exemple précédent on avait à la fois 


a , c) Rd , e) et ( a,b) R,( d, e ) et que par conséquent 
Pc) Reufta,-b, ):: 


Montrons au contraire que R,est bien un isomorphisme dans 
les treillis modulaires. En effet, si v et v' appartiennent à 
( xny , x ), on a lacorrespondance : v+yUv. 
VU Yuv! 
Un Tout ovu rt): (ci uv: )suu(syuvt) 
et pour tout w, w' dans ( y , YU x): 
W + XANW 3; W' + xXNW 3; wnw—xN(wnw!) 


Enfin d'après la loi modulaire, il existe la propriété in- 
volutive suivante qui achève d'établir le résultat 3 


VoUYUT Ax Ty Uv)-=( xTy )D0(-xNnv) 


Il 
< 


I. - TREILLIS DE PARTITION 


Les autres variétés particulières de treillis que l'on a 
l'occasion d'utiliser ne sont pas en général definis par des 
lois universelles, mais par des considérations assez diverses, 


Par exemple, un treillis fini est un arbre quand, quelque 
soient a et b on at a + b = 1 ( 1 : le plus grand élément) 
(sauf naturellement si acb ou bea). 


Ceci revient à dire que chaque élément (sauf 1) ne couvre 
u'un seul élément ou encore que tous les intervalles ( O0, a ) 
{ a 4 1 ) sont des chaînes, 


Les treillis de partition que nous étudierons maintenant 


sont au contraire définis à partir d'une autre structure. Ils 
sont un peu plus généraux que les treillis que l'on considère 
habituellement sous ce nom et qui ne sont rien d'autre que les 


« 
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structures duales des treillis de toutes les relations d'équiva- 
lence d'un ensemble. 


Définition : Etant donné un ensemble E, une famille F 


de parties e; de E ( ié6i}) sera dite "base de partition" de 
l'ensemble si elle satisfait aux conditions suivantes 5 


19 = F contient E lui-même et l'ensemble vide ÿ 


29 — F contient en même temps que tout sous-ensemblede 
ces parties leur intersection au sens de la théo- 
rie des ensembles, 


30 — Si e; CF, et si les ensembles deux à deux dis— 
joints ej ( j EJéc I ) sont contenus dans ej , il 
existe au moins un système de ex (KE K(I )dans F, 
deux à deux disjoints, et disjoints des ej , tels 
que la réunion (toujours au sens de la théorie 
des ensembles) des ej et desegsoit exactement ei. 


On observera que la condition 3° n'est qu'une forme affai-— 
blie de celle par laquelle on définit habituellement la diffé-— 
rence dé deux ensembles, Qu'èlle ne s'y réduit pas est montré 
par le contre-exemple suivant $ 


E = a,b;c; F = (a,b,c),(a,b),(b,c),(a),(b),(e), et 9. 
F est bien un treillis mais ne contient pas 5 
(rat) ar Ghana) GE 
On voit sans peine que # 
toute base de partition de E contient aussi une base de 


partition pour chacun des ensembles, e; appartenant à F. 


Dans la suite, nous n'aurons presque jamais besoin que des 
deux cas suivants : 


19 — E est un ensemble fini de n éléments, F est l'ensemble 
de toutes les parties de E, ce qui est le cas considéré habi-— 
tuellement comme nous l'avons dit plus haut, 


2°-E est l'ensemble des entiers positifs inférieurs à n, 
F est l'ensemble des entiers compris entre deux valeurs, 


Nous considèrerons désormais que E et F sont donnés une 
fois pour toutes, 


Définition $ Une partition W = (e, }(e;)... (e,) de E sera 
une relation d'équivalence sur E dont les classes (les "compo 
sants")e, , e,..., €, appartiennent à F, 


Le résultat suivant est trivial # 


Si West une partition de E, W définit aussi une par- 
tition de chacun des sous-ensembles E; de E form par la 
réunion d'un nombre quelconque de ses composants, On appel- 
lera ces partitions les restrictions de W à E;, 


On profitera de ceci pour abréger les notations et écrire 
par exemple W = (e,) (es Je....(WM')(Wrt) +. Si €, ©... etc sont 
des composants de W et W° les restrictions de W à e! e'!,.,. etc, 


À 
| 


| 


si: 
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# 


les e,, e ,... e', e" ... étant, naturellement disjoints et de 
réunion totale égale à E. 


Nous ordonnerons les partitions par la même relation d'or- 
dre ( "plus fin" ) que les relations d'équivalence et nous dé- 
montrerons % 


Quelque soit F, cet ordre est un ordre latticiel : 


Eneffet, Soient -Wi= (é,) -(e)n....(.e.). et. .Wwt = (et) 
(e'2)....(e', }. Les ensembles e; Net; appartiennent à F, sont 
deux à deux disjoints et ont pour réunion E. Ceux qui ne se ré- 
duisent pas à l'ensemble vide sont les composants d'une partition 
W'' plus fine que W et que W' et moins fine que toute autre ayant 
la même propriété. Donc il existe une intersection des parti- 
tions et comme nous opérons dans un domaine fini, il s'en déduit 


l'existence d'une réunion. 


On remarquera à ce propos que ce treillis L, ne satisfait à 
aucune loi universelle particulière dans le cas général. Il est 
cependant distributif dans le cas correspondant au deuxième 
exemple donné plus haut. 


Enfin si W est plus fine que W,, la notion de "quotient" 
W? de W, par W aura un sens bien clair $s W' sera la parti- 
tion induite par W sur le quotient E' de l'ensemble E par la 
relation d'équivalence que définit W, 


Les principales propriétés du treillis L. découlent des 
considérations très simples suivantes 3 


À tout ej et à toute partition Wæ« de ej nous associons un 


symbole que nous appellerons l'opérateur de partition simple Tæ 
et nous convenons d'écrire : 


W Ta = W' chaque fois que : 


19 — ej est un composant de W (sinon on convient que l1'é- 
criture précédente n'a pas de sens) 


29 — les restrictions de W et de W' à E-e;j sont identiques. 
39 — La restriction de W' à ej est précisément We, 


‘ Nous composerons ces opérateurs par une loi notée o et dé- 
finie par 
T't = ToT!' si et si seulement il existe W , W! et W'!' tels que 


Mt et Mtt =°W! Tt' ajïient” un: sens, 
Manifestement on ne peut avoir ToT' que dans les deux cas 
suivants $ 


WT 


19 — T' opère sur un composant de la partition Wesur lequel 
opérait déjà T . Dans ce cas T'_o T n'a pas de sens mais ToT' 
est aussi un opérateur de partition simple, 

20 - T' opère sur un composant ej de W distinct de e; . Dans 
ce cas ToT' et T' o T ont tous les deux un sens et peuvent être 
considérés comme éqaux puisqu'ils conduisent à la même partition 
L'RRR 

L'ensemble des classes de mot en les T formés avec la loi 
de composition qui ont un sens, et qui ne sont pas réductibles 
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l‘une à l'autre par la loi de commutativité précédente consti- 
tuent ce que nous appellerons le groupoïde G des opérateurs de 
partition de E, à 

Comme on voit,G est isomorphe du quotient du groupoïde des 
intervalles de L par la relation d'équivalenceRentre intervalles 
W qui est la fermeture des relations suivantes 3 


DER ss MN) Rr (Wii MS) Si We = NT et RETENIR 


20 C5 (WW ) °C ( W'r Wrivjestilrexiste tret Ti AVeRS Ge 
Wt = W (ToT'})} et W''t = W'! (Ty, T }). 


Nous appellerons R l'équivalence normale et nous justifie- 
rons son intérêt par les théorèmes suivants # 


19 — Si ( W, W! }) Rr (W'', W''t) alors les deux inter- 
vailes sont isomorphes, 


En effet, ils sont tous les deux isomorphes à un intervalle 
( W,, W' ) sur le treillis des partitions de l'ensemble €, sur 
lequel opère T 


29 = L'intervalle (W, W") où W" = W ( T, o T: }) 
=W (T oT) est isomorphe au produit direct des intervalles: 
CAPE ONUN)= ét" (NAT, s SPWEN), 


En effet, toute partition de l'intervalle (W, W'') peut 
s'écrire ( w, j ( W) (Ws) ou W, est unepartition de l'ensemble e, 
sur lequel opère T, , W une partition de e, et Was une partition 
de E — e, —- e,. 


Enfin on a 3 


39 — R est une relation d'équivalence plus fine que la 


relation d'équivalence projective R,. Deux intervalles R 
équivalents sont donc isomorphes, 


Ce résultat est certainement vrai pour la relation C en 
vertu du théorème précédent, Montrons qu'il en est de même pour 
RT . 


Si ( W , W' ) R, ( W, WI ) , on peut poser par définitions 
W, (8, CRM ER TERRIER) 
NU = (MO M Jet OT OR 
où Wo est la partition effectuée par T sur e,. 


Il 


Considérons l'intervalle ({ WU W), ( WU )), I1 est 
isomorphe à chacun des intervalles ( W , W' ) et (W, Wy ) puis- 
que : 
WUW, = (ee) (W't U W't ) et WOU WE = (W)(WUtU w'r ), 
Qu'illeur est aussi projectivement équivalent résulte du calcul : 
WONCMEU NU) = MY et 5 M2 N (ME U WU ) = W, 


qui est immédiat puisque | RCE n( W'yUW'!, } = L'O 
Le même raisonnement aurait pu naturellement être effectué 
en utilisant l'intervalle ( W. NW: , WU W' ). 
L'ensemble de ces résultats peut encore être résumé dans le 
théorème suivant 5 


de 2! ail: 
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49 — Si W est plus fine que W,, l'intervalle ( W, , W) 
est isomorphe au produit direct des intervalles ( W:i  Woi 
correspondant chacun à un composant e;j de W, et où Wi et Woi 
sont respectivement la partition la moins fine et la plus 
fine de l'ensemble e' quotient de e; par la restriction 
appropriée de W, considérée comme relation d'équivalence, 


Enfin rappelons que l'on appelle semi modulaires les treillis 
tels que : 


Si x et y couvrent xNy alors xUy couvre x et y , ce qui 
est un affaiblissement du lemme de BIRKHOFF que nous avons donné 
plus haut pour les treillis modulaires, 


On peut établir que s#$ 
Les. treillis duaux des treillis de partition finis 
sont semi-modulaires, 


11 suffit de voir que W et W ne peuvent couvrir W;-W,NñW 
que dans les deux cas suivants 


19 - W = (ei) (Wy )(W£ ) et W2= (W})(ez )(W4) 

où W! et W sont respectivement des partitions de e; et e2 . 
29 = M = (Min ) (MS) et We = (My ) (Wts) 

où W}, et W}; sont deux partitians du même e;, 


Le résultat découle alors de la définition même de la base 
des partitions, 


IV. - FONCTIONS NUMÉRIQUES SUR LES ENSEMBLES 


ORDONNES 
Dans la théorie des treillis, il est classique de définir 
une valuation comme une fonction numérique |x| des éléments x 


d'un treillis modulaire satisfaisant à l'identité 3 
1x U y + IxNyl = |xl + |yl 


Afin d'étendre aisément cette définition par trop restric- 
tive nous nous placerons d'emblée à un niveau plus général. 


E étant un ensemble muni d'une relation d'ordre R et étant 
un anneau commutatif, nous appellerons fonctions de (E , R) 
dans OGtoute application f(x,y) dansades paires d'éléments x 
et y de E qui est nulle sauf quand x R y. 


11 s'agit donc plutôt en toute rigueur d'une fonction dans 
d des intervalles de E mais nous pourrons sans danger de confu— 
sion employer cette terminologie plus concise, 


Si E est fini, on peut associer (cf. RIGUET,ThèseParis1951) 
à tout f ( x,y) une matrice F dont l'élément aÿ= f ( x,y) est 
nul quand x n'est pas tel que x R y . Il est évident qu'en rai- 
son de la transivité et de l'acyclicité de R , les matrices F 
satisfaisant à cette condition constituent un nouvel anneau 
dont l'unité I correspond à la fonction Kronekerienne3 


ES SL: IX SI Y 
sCx ss 2] 


O dans tous les autres cas, 
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De plus, si f ( x , x ) n'est jamais nul, il existe une ma— 
trice unique F telle que F F = I. 2 

Parmi les fonctions spécialement dignes d'intérêt on notera 
la fonction de consécutivité dont la matrice C teprésente dla 


fonction #3 


HUE rs = 


IESIMYACOUVTeNxX 
O dans tous les autres cas. 


et la fonction d'incidence à laquelle nous associerons la matrice 
SE : 


ÉMCOx SIC) = 


lnSTexX eye 
O0 dans tous les autres cas, 


La matrice S°!' correspond à la fonction de MOBIUS de la re- 
lation d'ordre car si f (x,y) est définie par f(x,y)=2 £"(x,y) 
ousft'Sesteune autre fonction on a #5 F = SF* et, par conséquent: 
Fa ST. 


Enfin, il est classique que l'élément af de C" livre le 
. nombre de chaînes distinctes de longueur n joignant x à y. On 
peut aussi, de manière plus profonde, rattacher certaines pro- 
priétés de la relation d'ordre R à celles de la réduite de 
JORDAN de la matrice S-I . 


Nous arrêterons là ces génémlités qui sont quelque peu ex- 
térieures à l'objet de ce travail mais qui peuvent présenter de 
l'intérêt pour les probabilistes en raison de leurs applications 
nombreuses aux problèmes de dénombrement finis. A titre d'exem- 
plie nous indiquerons seulement le calcul de l'expression for- 
melle des moments d'un système de variables aléatoires en fonc- 
tion de Ilieurs cumulants ce qui nous fournira l'occasion de don— 
nèr la fonction de MOBIUS du treillis de toutes les partitions 
d'un ensemble de n objets, 


Considérons n variables aléatoires x, .....xn réparties de 
manière quelconque. A tout composant X; d'une partition W de 
l'ensemble des x,associons la valeur moyenne m(Xi) du produit 
des variables x; appartenant à Xj et à W elle-même le produit 
des expressions m(x;j) relatives à chacun des composants, Dési- 
gnons par K(W) l'expression analogue construite avec les cumu- 
lants., 


Soit Wo la partition la plus fine: il lui correspond m(Wo ) 
RATE mx) n(x.)..:.. mix) K(xehesreR (En 


Considérons m(W) et K(W) comme deux fonctions de l'inter-— 
valle ( W,W}) du treillis de toutes les partitions de l'ensemble 
des xj. 


Nous supposerons connu le fait que m(x,;....xn) est la 
somme étendue à tous les W des K(W) correspondants, chacun d'eux 
étant affecté d'un coefficient unité, c'est-à-dire que l'on a 

m(W) =2K(W) où la sommation est étendue à toutes les W! plus 
fines que W. Par exemple s 


M(x y 2) = K( x y z ) + K(x) K(y z ) + K(y) K( x z)+K(DK(x y)+ 
K(x) K(y) K( 2), 


On aura donc 3 K( x ,x2...%n) = Z£(E ,W')m(W') où la 
somme est etendue aussi à toutes les partitions de E et où 
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f( E,W) est le coefficient numérique représentant la fonction de 
MOBIUS du treillis des partitions de E, 


Par définition f(W W) est nulle si W, n'est pas plus fine 
que W2,. Elle est égale à 1 si W = W2 et enfin, pour tout inter- 
valle non dégénéré ( W W:}), elle satisfait à >f (W , W') => 
PRENOM + = 0 où We parcourt ( WW: ): 


11 nous suffit ici de calculer f( E, W, ) mais comme on l'a 
vu dans le chapitre précédent ( E, W2) est isomorphe à ( E' W4 ) 
où Et est le quotient de E par W et où W est la partition la 
plus fine de E' , Par conséquent : 


f (E, W ) = f (Et, W\ ). 11 en résulte que f(E, W ) ne dépend 
que du nombre h, des composantes de W,, On vérifiera que cette 
fonction est (-1)"2 ( h,)! pour les premières valeurs de h et on 
obtient le résultant par récurrence en utilisant l'identité : 
m ñ . ñ 

2 S} (-1) il= 0 . ( S/ : nombre de STIRLING de 2ème espèce) 
Æ s 

puisque Sh est le nombre des partitions en i classes de m objets. 


De l'expression de K( x,xj,....%Xn) ainsi obtenue on peut 
déduire toutes les autres en identifiant certaines variables, 


Ainsi par exemple $ 
K(xyz) = m(xyz)-m(x) m(yz)=m(y)m(zx)-m(z)m(xy) + 2m(x)m(y)m(z) 
On en dériverait en faisant $ x = z : 
K(xty) = m(x?y)-2m(x)m(xy)-m(y)m(x ) +2(m(x) m(y)) 
et en faisant x Va Z 
K(x®) = m(x®)— 3m(x) mx?) + 2(m(x)}° 


(l 


LES VALUATIONS 


Les fonctions qui nous occuperont maintenant sont celles 
qui dérivent d'une fonction au sens strict des éléments de E et 
nous introduirons la définition suivante s; 


f(x,y) sera une fonction simple s'il existe une application 
h(x) dansädesélements de E telle que f(x,y) = h(y)- hB(x) 


On voit que pour un système physique évoluant de façon dis- 
crète si f(x,y) est considéré comme attachée au passage de l'é- 
tat x à l'état y, la condition que nous imposons revient à pos- 
tuler l'existence d'une fonction d'état h(x) indépendant de 
l'histoire antérieure du système. 


Naturellement, nous aurions pu au lieu d'une loi additive. 
utiliser une loi de composition multiplicative h(y)=f(x,y)h{x) 


- et nous ferons souvent usage de cette possibilité. 


Plus généralement encore,nous aurions pu supposer que & n'é- 


tait pas commutatif. Un exemple simple en est fourni par les 


chaînes de MARKOFF. Dans ce cas h(t}) est le vecteur représentant 
la distribution des probabilités au temps t et f(t,, t:) est la 
matrice décrivant les probabilités de transition. 


Nous particulariserons encore les fonctions qui nous inté- 
ressent et R étant une relation d'équivalence entre intervalles 
de E nous définirons enfin les valuations : 
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La fonction simple f(x,y) sera dite induite par une valua- 
tion h(x) des éléments de E si f(x,y) = f(x',y') chaque fois que 
les intervalles (x,y) et (x',y') sont équivalents selon Re 


Dans l'exemple évoqué précédemment des chaînes de MARKOF, 
nous ayions donc bien affaire à une valuation si la chaîne était 
constante dans le temps et si la relation R était simplement 


l'égalité de durée des intervalles, 


Plus généralement il en serait de même si les états succes 
sifs d'un système physique étaient régis par un semi-groupe (ou 
groupoïde) d'opérateurs Ti. L'on voit alors que notre définition 
des valuations est une généralisation de la notion de caractère 
de groupe - telle que la définit WIENER - puisque elle s'exprime 
en notation multiplicative par 3 


h(T; x) = f (Tf) h (x) où f(T; ) est indépendant de x, 


En choissant pour R lamælation d'équivalence projective on 
retrouve bien pour les treillis modulaires la définition clas— 


sique qui peut s'écrire (en notation abrégée)[h ( x+y ) - h(y) = 
n(X) = B x y 


Calculons maintenant les expressions h(x(y+xz) et h(xy + zy) 


dans un treillis quelconque en utilisant l'identité précédente : 
h(x(y+xz))=h(x) + h(y+xz)-h(x+y+xz) 
=h(x) + h(y) + h(xz) - h(xyz)-n(x+y) 
=h(xy) + h(xz) - h(xyz) 
h(xy + xz)=h(xy) + h(xz) - h(xyz) 


On voit que l'égalité de ces deux valeurs entraîne que dans 
touÿ treillis, les éléments modulairement équivalents ont la 
même valuation, quand celle-ci repose sur l'équivalenceprojective 
ce qui explique les limitations de la définition classique. 


En outre, ceci montre le lien étroit qu'établidgsent les va 
luations entre les relations d'équivalence entre éléments et les 
relations d'équivalence entre intervalles. 


On observera enfin que les probabilités associées à un sys— 
tème d'évènements x, Y, +++ quelconques constituent une valua- 
tion particulière, car l'identité fondamentale peut aussi bien 
s'énoncer sous la forme familière 3 


Pr ( x&y ) = Pr (x) + Pr (y) - Pr ( xVy) 
Si donc on a affaire à un système d'évènements formant un 
treillis distributif dont les éléments "&irréductibles" et 


"Virréductibles" sont désignés respectivement par ai et a et 
si x est défini par : 


x = a, & a & +. an = à, v 4, .V(-a! 


on obtient par application répétée de cette identité les deux 
représentations classiques de Pr(x) comme somme pondérée d'ex= 
pressions telles que Pr( a, & a, & ...) ou.que Pr ( 4,V deco) 
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Revenons maintenant au cas général, 


Théorème sLes valuations de E pour R forment un module 
dont le rang est égal au nombre plus un des classes d'in- 
tervalles équivalents définies par R,. 


La première partie de cette assertion est évidente, 


Nous pouvons donc associer à chaque classe C; d'intervalles 
(x,Y) équivalents une valuation hi telle que : 


IPS ExS y) ee C 
112 69) -| 


O dans tous les autres cas, 


Réciproquement, si la fonction f(x,y) déduite de la valua- 
tion hj est telle que f(x,y) = aj pour (x,y) € Ci ,la différence: 
£ (xsy) — Dai (h; (y) -h ( x )) 
est identiquement nulle, Ceci établit le théorème puisque f ne 

détermine h qu'à une constante près. 


Théorème ; Toute valuation d'un treillis de partition 
fini relative à l'équivalence normale R peut se mettre sous 
la forme 3: 
h(W) = gle)+gle,)+.....+g (er) 
où g(ei) est une application dans À du composant ei de la 
partition VW. 


11 est facile de vérifier que si h(W}) est de la forme pré- 
cédente les différences h(W T) -h(W) ne dépendent pas des en- 
sembles e sur lesquels n'opère pas T. Réciproquement, soit Wo 
la partition la plus fine de E, c'est-à-dire W= ( a ) ( a) 

c )....( x ). Soit pour une certaire valuation h(W ) = K 
Choisissons arbitrairement dans les valeurs g(a), g(b) ..telles 
que leur somme soit K. Pour tout ej de F appelons Wi la partition 
la plus fine dont un composant est e;j et définissons 

g ( ej) par h (W ) + h(wWi) + Le g (ai) 


Comme pour toute partition W= (e, } (e,) RES l'intervalle 
(W, M ) est le produit direct des intervalles ( W , W}) ( W) W) 
nets WMo), on doit avoir : 


h(W)-h(wW)= >(n(wW ) -h( Wi )) 
ce qui ne peut être identiquement vérifié que si : 
HUM) = gr ei 
la sommé étant étendue à toutes les composantes de W 


Comme les valuations ne sont définies qu'à une constante 
additive près, il pourra être avantageux d'utiliser la forme: 


he(s)é= ga (re,)-"g;(.E6.) 
qui s'adapte commodément au calcul sur un sous-treillis (w,%) 


UNE ÉQUATION REMARQUABLE 


Nous allons supposer maintenant que F contient toutes les 
parties de l'ensemble fini E et nous allons discuter une équa— 
tion dont la solution est une valuation de L, 
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Théorème : Si la fonction h (e;j, ej) dans des paires 
d'ensembles disjoints satisfaitpour tout ei, ej, ekaux deux 
conditions : ‘ 


Loechte., 0e; )r=tht( ee) 
29 — he; jejuex) +h(e; »ek)=sh(e;, e;u ex )+h@i ,e, ) 
elle peut être mise sous la forme $ 

h(e;j,:e;) = f(e;) +rf(e; ) -f(ej une; ) 


La condition 1° implique que l'expression figurant dans 2° 
est une fonction symétrique de e; , ej et ex que nous pouvons 
écrire s h(e;, ej, e) 

Montrons d'abord par récurrence sur n que 

he; 76.2. 6,4) here perte Mie (ee) 


est aussi une fonction symétrique de ses n + 1 arguments. 


Par hypothèse on a s 
h(ensenss + he, ; © cn 15 En U En-1) = 
h(e, ,@ cn; U € Uênss )+ h (en, enÙ en+1) + h(en, En+1) 


= h(e;, €, ,.sen-1Uen Ven) + he :,, e,, e,;) 
ce qui montre que h ( @, se+€n:1) est invariante par permutation 
de €eh-1s en et en,, et comme en, par hypothèse aussi, est un 
quelconque des n-ipremiers arguments de he, , e, ,...€e, €e,1), ce 
résultat intermédiaire est établi. 


Montrons maintenant que h est une valuation de treillis des 
partitions. 


Comme F contient toutes lés parties de E nous pouvons nous 
limiter aux opérateurs T qui partitionnent en deux sous-ensembles 
celui sur lequel ils opèrent. 


Soit la partition s$ 


Mes. ej ure,i)  ( es ureZ) (Se AE EN 


on peut alors vérifier que 
h(e,u €) , ezs UE, » ©5 .s€n)-h(e,U © C3 4 9 5 # TS 


= h (ei s ©25 Es U ©4s seen) — h(e, os C2? Cas C4 és. 0h08 
qui établit que h est une valuation. D'où le théorème. 


Ilest important d'observer que quand E n'est pas un espace 
topologique discret comne nous l'avons supposé, l'équation que 
nous venons de discuter, peut avoir des solutions qui ne sont 
pas des valuations. Une équation très analogue se rencontre dans 
la théorie de ELLENBERG et MAC LANE de l'extension des groupes 
abeliens - (1943) Ann.of.Math,(2) Vol 41) — 
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V. - DEUX APPLICATIONS 


UNE APPLICATION AUX “STATISTIQUES D'ORDRE ” 


Nous considèrerons en application des résultats précédents, 
certaines distributions qui ont été étudiées séparément (1) par 
les statisticiens et nous montrerons qu'elles peuvent se déduire 
très simplement de ce seul fait que leur fonction génératrice 


est une valuation d'un treillis de partition. 


Soit une famille de k ensembles. A,, A,....+Ax Comprenant 
chacun nj éléments ai; . 11 est fréquent en statistique que les a 
puissent seulement tre classés par ordre de grandeur et que 
l'on ait à tester l'hypothèse nulle selon laquelle les 
(Eni)!(mtn,l…..n«!)* permutations possibles seraient équiprobables 

contre la famille d'hypothèses alternatives selon lesquelles il 
y aurait toujours une probabilité plus grande que 1/2 qu'un ob- 
jet a soit plus petit qu'un objet aj'j' si i<i'. 


Les deux cas limites qui ont été envisagés systématiquement 
sont ? 


19 — Celui où k = 2,ce qui fournit un test non paramétrique 
de la différence de tendance centrale de A, et de A: 


29 — Celui où, au contraire, k étant quelconque, chaque en- 
semble A; ne contient, qu'un seul objet, ce qui conduit aussi à 
un test non paramétrique mais cette fois portant sur la corréla- 
tion entre le rangement observé et un autre rangement a priori 
(c'est le coefficient "tau" de KENDALL ). 


Nous n'étudierons ici que l'aspect algébrique de cette 
question et nous chercherons les distributions de la variable 
R = Hretoi 105) 

1 si i<i et a;jj observé inférieur à a;jj! 
ser (i,1,11;j1) = 
O dans tous les autres cas 


i, 1 j.j 


I1 est facile de voir que R fournit la caractérisation la 
plus immédiate des propriétés d'ordre de l'échantillon observé. 


Pour un système devaleurs de nj donné, nous désignerons par 
- PB la probabilité pour que R = x dans l'hypothèse HQ et par 
g(nj, n...ng) = 2 PR tt, la fonction génératrice des P 


Théorème 3 g est une valuation multiplicative du 
treillis des partitions en segment de l'intervalle ( ©} nf) 


D'après les résultats du chapitre précédent, il suffit de 
montrer que si g* et g'! désignent respectivement les fonctions 
génétatrices relatives à une famille formée de k-1 ensembles de 
= puissance NM + Npocoepljg F Njpyygeeee 1 et à une famille composée 

seulement de deux ensembles de puissance n;j, et nj,,jon a 9 =g!'g" 


C£ s KENDALL.M.G.Rank correlation Methods-London 1948 
WILCOXON.F. (1945) Biometrics Bulletin 1 p 80-82 
HALDANE.J.B,S., an C.A.B.SMITH (1947) Ann.Eug.(14) p 117-124 
KEEPING.E.S, (1952) Biometrics (8) p 112-119 
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Mais cette propriété résulte directement du fait que R est 
la somme de deux variables aléatoires indépendantes; l'une R' 
qui ne diffère de R que par le fait que l'on pose T LS PU ee 9 
+ 1 , j' ) identiquement nulle, c'est-à-dire que l'on ne se pré- 
occupe pas de l'ordre relatif des objets des classes Ai, et Aj,,15 
l'autre R'!' définie au contraire par 


TARN e, 11,:jt-)u= Obsauf SLTiL=UIS HR Ie S I MObi Lee PSE 
observé plus petit que Ajrjr e 


Par conséquent on peut écrire g sous la forme FT Pn; (t) 


(a (t) 


où w@n; (t) est une certaine fonction qui ne dépend que de nj et 
que nous allons déterminer. 


Pour cela il suffira de considérer le cas très simple d'un 
ensemble A, avec n objets et d'un ensemble A, avec un seul objet. 
Ici, on a évidemment 3 


_1 a 
Hit inncet) Gnet)r Pat) ps tt) ps (t) 
En raison de l'homogénéité des formules on peut poser : 


1- 
wl(t) = TEE = 1 


et l'on déduit par récurrence du résultat précédent : 


d'où l'on peut dériver les distributions déjà connues dans les 
deux cas que nous avons mentionnés au début, c'est-à-dire 5 


1° — dans le cas de deux ensembles de puissance respectives 
n; et n, = NitNo ; ns n2 “ER se 
= coefficient de t, dans : LT I Titi) FE); ë 1] 
1 1 


t=4 


29 — dans le cas de n ensembles formés chacun d'un seul 
objet 
Te k 
Px = coefficient de t dans : (nt!) (it | 
1 1-t 


APPLICATIONS A L'ANALYSE GÉNÉRALE 


Les formules précédentes ont une application algébrique in-— 
téressante. 
Considérons dans un anneau deux éléments x et y tels que 


Y X = u X y où u appartient au centre de l'anneau et proposons— 
nous de calculer : 


h 
(x + y) = z ( n°: entier positif ) 


LS LA 
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11 est immédiat que z est une somme de termes de la forme : 
xH_  yn-n, FEU) 


où fnn(u) est un polynome en u de degré maximum n, (n-n, ) puis- 
que $ yb x = u®b x yb 
$ | 
Mais fnn(u) x"y"-M est la somne der) e 
2 
termes élémentaires de la forme u® x"! yn-nloù R a la même signi— 
fication que dans le paragraphe précédent. Par conséquent : 


n n n-n 


; ETS A4 
eee mn éen)et UT (ru) 
1 1 \ 
Nous avons utilisé ailleurs (Comptes-Rendus 1953-236-p, 


352-353) ce résultat pour donner une solution nouvelle de l'é- 
quation fonctionnellué 


RUE SE UMR ECS EE 
LA FORME GÉNÉRALE DES DISTRIBUTIONS DE LA STATISTIQUE 
QUANTIQUE 


Dans l'application précédente, c'était une fonction généra— 
trice qui apparaissait comme une valuation; ici au contraire ce 
seront des distributions de probabilité que nous déduirons di- 


rectement de la formule générale, 


Soit un ensemble E d'objets de puissance finie N. Nous ap— 
pellerons ces objets des particules, 


Soit d'autre part F un second ensemble qui sera l'espace 
dans lequel se trouvent ces particules. 


Les parties de F seront appelées "cases" et on les suppo- 
sera munies d'une mesure additive, 


On définit en yénéral les distributions de la statistique 
quantique en faisant dès le début des hypothèses sur la nature 
des particules et on en déduit les expressions classiques de 
BOLTZMANN, BOSE-EINSTLIN et FERMI (1). Mais dans cette méthode 
il est parfois difficile de faire la part de ce qui est nécessité 
logique et de ce qui est raisonnement physique ou encore calcul 
d'approximarione 


Nous nous proposons donc à l'inverse de montrer brièvement 
comment des impératifs algébriques imposent aux distributions 
une forme générale qui est indépendante de la nature des parti 
cules étudiées, 


Théorème s; Toutes les distributions de la statistique 
quantique sont de la forme 


*9i 
tn x) -e[ 
distribution,f “3 (n) représente la distribution dont la 


transformée de FOURIER est égale à la gième puissance de 
celle de f{n) 


Zgi à ; 3 
sie (Zn) ) où f(n) désignant une certaine 


Cf par exemple ; PERRIN.F,1939- -Mécanique statistique quantique- XI 
FORTET.R.1950-Calcul des probabilités- p 27-31 
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a , DATE nr 
Désignons par Pr la probabilité condi- 
91 9 Jp s°0...9L tionnelle 


de trouver n; particules dans la case 1 de mesure g,, ©” parti 
cules dans la case 2 de mesure g, .... etc ... quand on sait que 
les N = n, + n>.....nçparticules occupent un domaine de mesure 


totale G = g,+ ec... e9k 


Avec ces notations, le théorème des probabilités composées 


s'écrit # 

doensen n n, n, + no n 3 

3 ’ , 
pr LE = P; : Pr 1 | 

94 Go 9 g , gd 1 + J,, 93 
puisque par hypothèse la distribution de n, + n2 particules à 
l'intérieur du domaine de mesure g, + g, est indépendante de la 
distribution des autres particules à l'extérieur de celui-ci. 


Par conséquent, si nous considérons le treillis des partitions 
en cases de l'espace où sont représentées les particules, 


n; 9 no 0e nk 
Pr sen est une valuation multiplicative et peut 
9; 9 Yo,..e JKk 


être mise sous la forme 5 
n; Jai _- 1 n; 
[ir Xe t où f désigne une certaine 
9j 2 gi 9: 
fonction encore indéterminée de n;, et de gi « 
Nous pouvons maintenant appliquer l'axiome des probabilités 


totales au cas particulier où deux cases seulement sont en cause 
Pour toute valeur de g, et g, # ; 


ñ, + nm 
n ny + M -n n, + D -1 
> f f X f = 
g; % g, + 
n=0 


Ctest-à=dire Que pour tout g, et g, on a l'équation de 


j n, + n2 n, +n n 0, + n,-n\-1 
convolution $ és = Ÿ f f£ 
9; d% n=0 g, g; +2 


et comme il est possible de normaliser f sans que cela apporte 
le moindre changement aux équations, il ‘s'en déduit le résujtat 
annoncé par une démonstration classique qu'il est inutile que 
nous reproduisions, 
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On peut vérifier que les fonctions f ainsi introduites 
sont respectivement dans les cas considérés par les physiciens : 


— la distribution de POISSON pour la statistique de BOLTZMANN 
(et ici g est une variable continue), 


— la distribution binomiale pour la statistique de BOSE- 


EINSTEIN. 
- la distribution binomiale négative pour la statistique de 
FERMI-DIRAC, 


Dans les deux derniers cas, on observera que g est néces- 
sairement un entier et que, d'autre part, les distributions élé-— 
mentaires f contiennent un paramètre qui ne semble pas avoir un 
sens physique et qui d'ailleurs s'élimine de l'expression finale 
des probdäbilites, 


x 
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I. - DÉFINITION DES INFORMATIONS 


Sans doute est-il trop tôt pour que puisse déjà être écrite 
l'histoire de ia théorie de l'information, Aussi bien, est-ce là 
encore un chapitre tout récent des mathématiques appliquées au— 

_ quel chaque année, sinon chaque mois ajoute des contributions 
qui en bouleversent les perspectives et les limites, 


Cette théorie, comme on sait, tire ses origines de la pra 
tique des communications et c'est la nécessité de délimiter et 
de mesurer ce qui était l'objet même de leur travail qui a 
conduit les fondateurs HARTLEY, TULLER, WIENER .,. etc (39, 48. 
77, 90) à définir mathématiquement le concept d'information. 


Ces recherches ont trouvé leur aboutissement dans la formu-— 
lation rigoureuse de C. SHANNON dont le mémoire fondamental (72) 
contient l'essentiel de ce que nous savons sur ce qu'on a appelé 
l'information sélective s à une source aléatoire émettant des 
signaux avec des fréquences données,SHANNON associe un invariant 
numérique ayant la même expression formelle que l'entropie et il 
montre que les propriétés les plus significatives des messages 
émis par la source ne dépendent en définitive que cette quantité, 


On peut aussi bien traduire ces résultats en un langage 
moins spécial (84) et considérer que les signaux sont simplement 
les résultats d'observations successives effectuées sur un objet 

SE 


dont les états que l'on cherche à identifier sont déterminés par 
un processus stochastique. 


Sur cette base de nombreux travaux ont étendu ou appliqué 
le concept d'information aux domaines les plus divers $s physique, 
théorique depuis SZILARD ( 70 ) avec GABOR (31,32,33) et MANDEL- 
BROT (55); optique (BLANC LAPIERRE) (10), physioiogie de l'au- 
dition (HUGGINS) (42) , sociologie expérimentale (BAVELAS ) 
(5,6,45) linguistique (MANDELBROT) (55), pour ne citer que quel- 
ques exemples typiques, Une revue générale sommaire, jusqu'en 
1951, a été esquissée par CHERRY (13,14). 


Mais, dans un tout autre domaine, il existait un invariant 
associé à un modèle stochastique que l'on appelait également 
"information" et qui avait donné lieu à une série importante de 
travaux (24,25,26,27). Nous voulons parler de l'information de 
 FISHER, bien connue des statisticiens puisque constituant le 
concept central de la théorie de l'estimation, Les liens entre 
ces deux quantités apparaiss aient d'ailleurs comme fort étroits : 


Cependant que l'information de SHANNON livre le nombre mi-— 
nimum d'observations nécessaires pour déterminer exactement l' 
état d'un système aléatoire, le théorème de FRECHET-DARMOIS, 
(30,18,19) exorcise tout démon qui prétendrait estimer un para- 
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mètre inconnu avec une précision supérieure à l'inverse de l'in— 
formation de FISHER, Enfin, la parenté formelle existant entre 
les expressions analytiques devait mener à chercher l'unifica-— 
tion de ces deux théories qui s'étaient jusque là développées de 
façon indépendante. 


C'est le problème général de l'information qui est d'en 
fonder la théorie dans un cadre conceptuel déyagé des restric— 
tions imposées par la pratique de.la statistique ou celle des 
communications # on citera les travaux de BAR HILLEL et CARNAP 
(12), de MAC KAY (51,52,53,54) de FERON (22,23) de BARNARD (2) 
auxquels malheureusement pour rester dans les limites fixées, il 
sera impossible de consacrer ici plus que cette brève mention. 
11 est vraisemblable qu'à ces préoccupations l'historien futur 
associera des recherches déjà plus anciennes comme celles susci— 
tées par les conceptions de FISHER sur la signification mê- 
me des probabilités , dont BARNARD (2) et GOO0D (34) ont bien 
vu la liaison avec le problème de l'information, 


Le but du présent exposé est beaucoup plus modeste ; con- 
trairement à la plupart des auteurs que nous venons de citer 
nous ne chercherons pas à définir par une analyse phénoménolo- 
gique ou sémantique ce que doit être l' "information en soi" 
puis à vérifier ensuite que telle ou telle quantité en fournit 
plus ou moins bien une évaluation numérique, Au contraire, noùs 
laisserons de côté le problème de la nature universelle de l'in- 
formation pour nous attacher à celui de sa mesure dans des pro- 
blèmes pratiques précis. 


Les deux cas particuliers étudiés par FISHER et par SHANNON 
nous Servant comme de repères, nous essayerons de trouver l'ex-— 
pression analytique la plus générale qui jouisse de leurs pro- 
priétés communes et nous définirons celle-ci par des postulats 
qui ne sont autre chose que les théorèmes relatifs à ces deux 
invariants, 


Même si les nécessités du discours empèchent qu'on l'expli- 
cite à chaque fois, il sera donc convenu que par le terme "in 
formation" au singulier nous n'entendons rien de plus que “tout 


type d'expression analytique satisfaisant aux conditions énon- 
cées", 


Cet abandon de l'intuition physique ou philosophique pour 
les cheminements de l'algèbre aura cependant un avantage : une 
fois obtenue l'expression générale de l' "information" = à notre 
sens — nous retrouverons en la particularisant des grandeurs 
parfois déjà connues mais dans lesquelles on n'avait point en- 
core songé à voir des informations. Il peut y avoir là, à tra- 
vers la diversité de ses mesures une voie pour des extensions de 
concept d'information lui-même, 


En bref, si l'on nous permet ce latinisme douteux, nous 
chercherons à construire mathématiquement un "explicandum!" puis 
à l'utiliser, du point de vue du calcul des probabilités bien 
plus qu'à livrer "l'explicatum" (12) des diverses informations 
concevables a priori, La tâche de relier à la physique les gran- 
deurs ainsi définies par un raisonnement formel qui a été 
brillamment entreprise par MANDELBROT (55) reste donc extérieure 


\ 


à l'objet de ce travail, 
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L'INFORMATION COMME ATTACHÉE A UN PROCESSUS STOCHAS- 
TIQUE 


C'est 1a première propriété commune aux informations de 
_ SHANKON et de FISHER que d'être relatives à des processus dans 
lesquels joue un élément de nature aléatoire, 


Cette intervention ne s'effectue d'ailleurs pas de la même 
maniere dans les deux cas, Dans celui d'une source qui émet des 
messages on convient de la considérer comme aléatoire pour ex— 
primer le fait qu'elle est astreinte à produire des signaux avec 
des fréquences données a priori. Dans celui de l'estimation, 
selon 12 formulation définitive de NEYMANN et PEARSON (58,59), 
on s'interdit au contraire toute hypothèse semblable sur les va- 
leurs inconnues du paramètre, mais toute la théorie repose sur 
l'existence d'än véritalbe processus stochastique interposé en- 
fre le choix arbitraire du paramètre inconnu ét l'observateur, 


Oz voit donc qu'il existe une certaine marge de disponibili- 
tés dans l'insertion du hasard à l'intérieur du modèle étudié 
et 11 nous semble qu'il y a 12 matière à des développements nou- 
veaux dans un domaine qui apparemment n'a pas encore reçu l'at-— 
tention qu'il mérites: celui de la possibilité et de la signifi— 

cation d'une sorte d'information dans les processus rigoureuse- 
ment déterministes que sont les calculs numériques dans un sys— 
tèse algébrique quelconque, d'ailleurs, 


En effet, dans la perspective où se sont placés la plupart 
des auteurs, et nous-même, i1 n'y a aucun changement dans la 
quantité d'information quand l'on a réussi par exemple à calcu- 
ler les racines d'une équation dont les coefficients étaient 
donnés, 11 est de même équivalent de connaître les éléments in-— 
terwenant dans un mot booléen ou de savoir en plus la valeur 
(“vrai ou "faux" }) de celui-ci. 


11 semble pourtant qu'il y ait lieu à des théorèmes du type 
de ceux étudiés par SHANNON pour la transmission des messages 
qui donneraient a priori la limite inférieure du nombre des opé- 
rations nécessaires pour le calcul, Peut être pourrait-on à ce 
propos évoquer la possibilité encore très vague de faire rentrer 
les problèmes dans le cadre des phénomènes aléatoires en intro- 
duisant une certaine irreversibilité par l'hypothèse que le cal- 
culateur “oublierait" son équation initiale une fois qu'il au- 
rait par exemple trouvé la valeur de la racine sur le feuillet 
de BIEMANN qui l'intéresse, Les résultats empiriques de LEMOINE 
(50) en "géométrographie" et les énoncés bien rudimentaires en-— 

_ core de l'algèbre des circuits électriques pourraient peut-être. 
fournir une base concrète à des recherches dans cette voie, 


11 est impossible enfin de clore ces remarques heuristiques 
sans souligner une autre limitation propre cette fois a ce tra— 
x2i1 et non 2 l'état d'avancement de ja théorie 1: les mécanismes 
aléatoires qui interviennent ici seront finis et en quelque 
sorte intemporels, 11 ne sera jamais question que d'une suite 
limitée de tirages au hasard discrets, c'est-à-dire, en défini- 
tive, d'une aléatoire unique dans un espace produit, Les pro- 
blèmes que pose l'introduction de véritables processus stochas- 
tiques tels qu'ils apparaissent dans les travaux de GABOR ou 
dzns les théories de la prédiction de KOLMOGOROF (44) WIENER(91) 
(Cf aussi(43) et les travaux de VILLE (79-83)) dépassent le ca- 
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dre de cet exposé qui se bornera à la "statique" de l'informa- 
tion comme préliminaire à la "dynamique" qu'annoncent les re- 
cherches éminentes qui viennent d'être citées. 


L'INFORMATION COMME VALUATION 


Nous sommes donc amenés à considérer l'information comme 
une expression H(E) attachée à une aléatoireë . A priori la ca- 
ractérisation la plus générale sera de supposer que H($) est une 
fonction symétrique H ( X,, X2, ...Xx) des k états possibles X; 
que peut prendreË lors d'un tirage et nous conviendrons, comme 
nous l'avons déjà dit, de nous limiter à un nombre fini de ceux-— 
ci. Insistons sur le fait que H pour l'instant est une fonction 
absolument quelconque qui pourrait, par exemple, dépendre en 
plus de la probabilité a priori de chaque état, d'un système 
d'autres grandeurs physiques (distance à l'origine, nombre de 
fois oùË a été observé à l'état Xi ....+ etc... etc...) à condi- 
tion que chacune de celles-ci soit attachée à l'un des Xj, et 
qu'on en puisse déduire les valeurs correspondantes à tous les 
ensembles d'une base de partition F de l'ensemble X des X;. 


11 est commode d'introduire des observateurs 0j dont chacun 
est muni d'un dispositif lui permettant seulement de repérer & 
entre les composants ( Yii ) ( Yi; )... d'une partition Wi de l'en- 
semble X des X;j relative à la base F, 


Aussi au lieu de parler de l'information attachée àËE ! oùE! 
est une aléatoire dont les états sont Yi ; Yi2 ... nous parlerons 
de l'information Hj surË pour l'observateur 0; qui est caracté- 
risé par cette même partition. 


Considérons tous les couples d'observateurs(O;, 0 de où O;'! 
ne diffère de oj que par l'impossibilité où il est de séparer 
entre eux certains états X,, X2,:... Xk qui Sont au contraire 
distincts pour 0: 


La première condition que nous imposerons à H est d'être 


telle que la différence H; — Hÿy, soit la même pour tous les cou- 
lest-0: 0j: ). Mettant en correspondance les opérateurs simples 


de partition Ti et les instruments d'observation capables de 
"résoudre" comme disent les astronomes les parties Xjen sous- 
ensembles Xj1 ...Xjk , il est naturel d'associer à la possession 
de chacun d'eux un accroissemnt bien défini de l'information, 
La condition précédente revient à postuler que cet accroissement 
est additif quand les ensembles correspondants X sont disjoints 


Si l'on admet, ce qui est fort naturel aussi, que le coût 
de l'installation d'un dispositif d'observation est la somme des 
coûts de chacun des instruments élémentaires, on voit que cette 


condition revient à établir une dépendance linéaire entre l'in 


formation et ce coût total. 


D'après les résultats obtenus dans la première partie,N est 
donc une valuation de treillis des partitions de X déterminé par 
l'existence des instruments d'observation et c'est un résultat 


immédiat que d'énoncer : 
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La valeur de l'information attachée à l'observation de 
l'aléatoireë est la forme Z g ( x;) où les X; sont les 
ensembles d'états entre lesquels on peut distinguer celui 
pris parË et où g est une application des X; dans un mo- 
dule X. 


CONDITION IMPOSÉE PAR LA RESTRICTION X’ DE X : 


Les expressions>g(X;i) sont encore beaucoup trop générales 
pour être efficaces et nous allons les particulariser par d'au- 
tres considérations, 


Jusqu'ici nous nous sommes bornés, de fait, à envisager la 
différence de !‘information entre deux observateurs qui étaient 
censés posséder les mêmes connaissances a priori surE , Ce qui 
éliminait ipso facto toute nécessité d'une référence à l'en- 
semble des données auxiliaires qu'ils pouvaient avoir à l'avance 
sur cette aléatoire, Au lieu de cette comparaison en quelque 
sorte synchronique, considérons maintenant la différence dia- 
chronique entre l'information attachée à E quand l'observateur 
sait seulement queë € X et celle qui correspond à une étape in- 
termédiair e du processus d'observation caractérisée par le fait 
que celui-ci sait en outre queË n'est pas dans un certain sous- 
semble X!'! = X — X!, 


Par exemple, siE est une variable numérique entière, disons 
le numéro d'un billet de loterie, nous devons considérer comme 
le gain d'information associé à la connaissance d'un premier 
chiffre la différence entre l'information avant et après cette 
détermination. Nous distinguerons donc le gain d'information qui 
n'a de sens que pour chacune des réalisations effectives de 
l'observation, de l'information proprement dite qui n'a au con— 
traire de sens que pour autant que celle-ci reste encore à faire 


Si avant l'observation l'information était donnée par 
Z g-(°X;), on pourrait considérer qu'après, elle devient 


x x (X; ) quand le sous-ensemble X''-= X - X' a été exclu par 
le resultat de l'observation, 


En réalité, il ne saurait en être rigoureusement ainsi # le 
passage de X à X' a aussi en quelque sorte altéré la nature de 
chacun des X; puisqu'ils ne sont plus relatifs à la même catégorie 
d'épreuves, 

Par exemple, comme on avait 2x P2 CR 1 , les Pr (X;) 
ne peuvent pas constituer un invariant attaché intrinsèquement 
à un état Xj, hors de toute référence à la totalité des autres 
X;. Pour marquer cette dépendance, nous &érirons explicitement 5 


H = Pie g ( Xi) et H!' = te ( Xj) ce qui fait que g doit 
être envisagée comme une fonction de deux arguments. 


Considérons le cas particulier où X = X, + X2 + Xset soient 
deux observateurs 0, et O:,. 


0, commence par déterminer siE est ou non dans X, puis,dans 
cette deuxième alternative,il regarde alors lequel des deux en— 
sembles X2 ou Xs contientE . 0, procède de la même manière mais 
en commencant par Xs. Par exempleËE étant, soit nulle, soit finie, 
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soit infinie, O0: détermine d'abord sië = O ouË # O puis dans ce 
: : —1 —1 
dernier cas si£ = 0 oû&£  # 0. 


Au contraire O2 commence par l'examen de! puis éventuel- 
lement observeE , Il est naturel de supposer que l'information 
attachée àE est, avant toute observation, la même pour 01 et O2. 
D'autre part, d'après le principe d‘'additivité que nous avons 
déjà utilisé, il est aussi naturel de poser pour 01: 

H ( X,,X,X5s) = H (X,,X2,X:) (valeur de l'information relative 
à la première observation) 


+ Pr(X2 +Xs) H(X2,Xs) (valeur pondérée de l'information rela- 
tive à la deuxième observation) 


En effet cette relation ne fait que traduire la corræspon- 


dance linéaire que nous avons déjà postulée entre information et 
coût d'observation, 


On en déduit pour g l'équation fonctionnelle suivante où 
l'on a posé pour simplifier P;= Pr ( Xi): 


gd, (X ) + g, (X2) + y (Xs) 


a (Xi) + % (X2+X9 + (P2+Ps) ( I + xs (X2) + x+xs(Xs) 


Il 


x (X3) + gx (Xi +X2) + (Pi+P2) (g xs x (%1) + xs+xe (X2))- 

Y et Z étant deux sous-ensembles ordonnés ( YCZ ) de X posons : 
P Y s at $ € 

JrÉCT) - h; (Y) ce qui est légitime puisque si Pr (Y) 


était nul, il n'y aurait plus matière à information et il serait 
donc logique que gz. (Y) soit nulle. 


La première des équations précédentes peut alors s'écrire ; 
P, h,(X2) + Ps hx(Xs)-(P +P,; )hx (X2+X3) = Pohxo +xs (X2) + Pa hxs 4x (X3) 


X ne figurant pas au second membre (puisqu'un changement de X 
multiplie seulement P;, et Pa par un facteur et que l'équation 
est homogène) le premier membre doit être indépendant de X, ce 
qui est le résultat auquel nous voulions aboutir et qui est le 
plus fort de ceux qui peuvent être obtenus si l'on ne fait pas 
d'hypothèse sur la nature des invariants qui caractérisent les 
ensembles Xj. Introduisons alors les restrictions suivantes # 


1° — Pr(Y;i) est un élément d'une certaine algèbre commuta- 
tive de BANACH B (par exemple Pr(X;) est une fonction analytique 
deux fois différentielles d'un système de paramètres, ou bien 
Pr(Xj) est une polynome en certains paramètres a,, &, +.) 


2° — h,(Y) est un élément de l'algèbre commutative de BANACH 
dans laquelle est définie H,. Elle est en outre une fonction 
continue de Pr(Y) et P(Z) et elle ne dépend de Y et de Z que par 
l'intermédiaire de ces probabilités. 


Dans se hypothèse, h,(Y) doit être comme on le voit une 
r(Y 


fonction nee seulement que nous écrivons h(P(Y)/P(Z))et 1a 


MEET 
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dernière équation devient s 
Psh(z P, ) + Psh ( z P,)= (P. +P,) h ( z P + z P;) = une fonction 
indépendante de ‘'élément z quelconque de l'algèbre B,. 

Soit encore, en supposant que Pr(X:) = Pr(Xs) = x 3 


2 x(h(x z)- h (2 x z )) 4 une fonction indépendante de z , 
soit encore # 


h ( zx ) -h ( 2 z x ) = constante 


ce qui est l'équation de SCHRODER (69) dont une solution conti 


nue est Log( x z) dans le cas où l'algèbre B se réduit à l'algè- 
bre des nombres complexes, 


Posons alors dans le cas général : 
h ( u ) =h!' (log u ) . 
On doit avoir pour tout u 3 
h* (Log u) = h' (log u + Log 2 ) + Constante, 
ce qui entraîne que h' ( }) soit un opérateur linéaire S . 


Nous obtenons ainsi le théorème 3 


Toute information est la valeur moyenne, étendue à 
l'ensemble des états,de la résultante de l'application d'un 
opérateur linéaire S sur le logarithme de la probabilité a 
priori de chaque état, 


Dans tous les cas que nous ‘traiterons, le gain moyen d'in— 
formation associé à une observation sera non négatif. 


On pourra donc ajouter à la définition précédente la res- 
triction 3 


L'opérateur S doit être tel que l'information correspon=— 
dante soit toujours positive ou nulle. 


REMARQUES SUR L’AXIOMATIQUE PRÉCEDENTE 


SHANNON a donné une justification très analogue dans le cas 
qui l'intéressait et qui se limite a celui où p est un nombre, 
En outre, il introduit cette hypothèse sppplémentaire que s ? il 
existe N états équiprobables a priori, H soit une fonction crois= 
sante de N, 


I1 faut remarquer que l'équation fondamentale qui revient à 
décomposer l'observation complète def en une série d'observa- 
tions dichotomiques virtuelles, suffit à elle seule à entraîner 
DO PDP X cs xt JOHN (EX, 2.4 xL) soit une valuation, On 
pourrait donc abréger la démonstration, 11 était cependant inté- 
ressant d'en analyser au maximum les différentes étapes car les 
valuations des treillis de partition se rencontrent dans de nom— 
breux chapitres du calcul des probabikités et c'est exclusive 
ment par la pondération Pr( x,+ x:) que l'information se dis- 
tinque d'une quantité telle que le "chi carré" des statisti— 
ciens, Nous reviendrons plus loin sur cette question. 
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IL - THÉORÈMES GÉNÉRAUX SUR LES INFORMATIONS 


EXTENSION AU CAS OU N’EST PAS UNE VARIABLE DISCRÈTE 


Nous n'avons étudié jusqu'ici qu'une variable susceptible 
de prendre seulement un nombre fini d'états et il serait impor— 
tant de pouvoir étendre la notion d'information à des cas plus 
généraux, Nous nous limiterons à celui oùE est une variable nu— 
mérique douée d'une densité de probabilité continue f(x) avec 
f(x) nulle en dehors d'un intervalle fini (a, b). 


La démonstration s'étendrait Sans peîne aux cas plus généraux 
( ( a , b ) infini ouË vecteur aléatoire). 


Considérons une famille infinie de partitions de plus en 
plus fine de ( a b ) en intervalles (ai; ÿ ai,js) de longueur 
Mij- 


Pour une partition donnée et quel que soit l'opérateur H 
l'information est 3: 


>f(x;) ( mij ) S Log f-( x; ) ni; 
où ai,j <X < jet 
Introduisons maintenant dans f un paramètre t tel que 
f, ( x) ne sit = 0 


(a-b)'! sit =] 


autrement dit, f, (x) est supposée être une distribution rectan- 
guliaire. Puisque l'opération consistant à fixer la valeur du pa- 
famètre est une opération linéaire # 


mijfrs (xj) S [ Log # 2x) mi], 
est une information que nous pouvons appeler H; y donc 
H, —-H9 =, = ni f(x) ES EEE ER) 


est une information et comme f,(xj) est continue, H, tend vers 
e z b 

l'intégrale |; dx f(NS Log f(x) quand les partitions de (a,b) 

sont de plus en plus fines, 


Dans les cas où cette expression a un sens nous l'appelle-— 
rons aussi l'information et nous ne ferons pas de différence en- 


-tre le cas discret et le cas continu. On remarquera toutefois 
que H, dépend des transformations que l'on pourrait faire subir 
à la variable x. 


11 en est de même pour H ce qui est naturel puisque l'opé— 
rateur que l'on vient d'employer correspond en quelque sorte à 
cette partie (infinie) de l'information totale qui est associée 
à la possibilité d'une identification infiniment précise de la 
position dexet qui est celle que l'introduction du paramètre 
puis la soustraction de la quantité associée à t = 1 permet d'é- 
liminer du résultat final, 
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INFORMATION CONDITIONNELLE 


Nous avons déjà fait implicitement usage de cette notion 
extrêmement commode dfle aussi à SHANNON. 


Considérons deux aléatoires M et Ÿ% auxquelles correspondent 
des treillis de partition Ty, et Tz . On a dit antérieurement que 
cette structure induisait de manière naturelle une base de par- 
tition pour l'énsemble X des couplesE = (n, & ). 


C'est une convention de langage commode que d'appeler pour 
un opérateur S quelconque "information conditionnelle" la valeur 
moyenne H (N|[Ÿ) - relativement à tous les états de %, de l'in- 
formation H(n|zi)attachée à l'observation den quand l'état Z;i 
deË est déjà connu, 


Posons: 
Pr (né Yi:06 2j) = Pij 5 p;=Pr(n € Yi) 3 p' = Pr (CEZ;) 
Pj = Pr (meyi Î6€ez;) = p;/pt 


on peut écrire pour tout opérateur S : 


ke P;;) S Log Ph 


H(E ) = BP; $ Log Ph; = APij S Log pif) + d 
) + H (6) 


=2p} H (n12Z;) + 4H (6) = H (nie 
on aurait de même 3 
HER (CS In)+a (ni) 


Supposons maintenant que ne dépende que de Eet ceci par un 
mécanisme aléatoire tel que l'information qui lui est attachée 
soit nulle quand$é est déjà connu # par exemple, - comme on le 
verra plus Join = si S = d/dt* (information de FISHER) où t est 
un certain paramètre, H (nIXi) est nul si t n'intervient pas dans 
la liaison stochastique entreet C. H (nI&hest donc nul aussi. 


Comme nous avons supposé que les informations étaient tou- 
jours positives H (SIA) est nécessairement plus grand que zéro 
Par conséquent # 


H (n) = 4H (6) - H (Lin) = H (6) - H (SIN) est toujours plus 


petite que H (QC). 


Ceci correspond bien à l'idée intuitive que l'observation 
denne saurait être aussi efficace que celle de &. 


VARIABLES INDÉPENDANTES 


Supposons maintenant que ë etn soient indépendantes c'est-à— 
dire que pour tout i et tout j Pj|j =P;j. Les calculs précédents 
montrent que H (N|E) = H (n) et par une extension immédiate à 
un nombre quelconque de variables l'on en déduit le théorème 


fondamental 3 
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Théorème $; L'information est une fonction additive 


pour la composition des variables aléatoires indépendantes, 


Réciproquement, il est intéressant de voir quelle forme 
doit avoir une valuation H pour être additive relativement à 
cette opération. 


Prenons donc H (E ) = % g(x;) où g est une fonction quel- 
conque des ensembles X;j qui forment une partition de l'ensemble 
des états de Ë et supposons que Ë =nx; oùnett sont deux àléa- 
toires indépendantes susceptibles de prendre l'un des trois états 
Yi, Y ,;" Ys et Z, Z, Z: respectivement, 


Nous écrirons Xjj pournéy; et ECZ;(c'est-à-dire que Xijest 
l'intersection de Xi et Z;j) et par hypothèse g ( Xij) devra être 
une fonction symétrique g ( Yi, Zj) puisque l'indépendance den 
etE signifie aussi que les invariants deË intervenant dans g 
peuvent s'exprimer en fonction des invariants denet deË . Ici 
encore, nous aurons besoin d'un artifice pour éliminer le fait 
que les trois ensembles Y, ,Y2 et Ys (et naturellement, Z, Z, et 
Zs) ne sont pas indépendants puisqu'ils constituent la totalité 
des possibles. Nous introduirons pour cela les aléatoires et£ 
obtenues à partir den etE en confondant respectivement Y, et Ys 
et Z; et Zs. 

Nous aurons donc, d'une part les quatre équations exprimant 

He (NT x EE). H (nr Mon (nx 6) ete (nee) 
comme sommes de H (n), H(N)H(E)et H (EË) 


d'autre part, les huit équations exprimant ces valuations comme 
sommes de termes g ( Xij). 


Les quatre premières équations montrent que # 
H(nxE)-H (NnxE)-H (1xE) - H (nxEËE) est nul. 
On en déduit l'équation s 


+ g(X22) + g(X23) + g(Xæ) + g (X33) 
=g ( X2+ X2s )-g (X32 + Xas )-g(X2 + X 52)-9(X23 + Xs3) 


PUR RD Ce Que) 
Pour trois ensembles U V UP posons : 
g À UnV ) + g À Uav') - g ( Un EVuv')) = G ( U;, v,v!) 
(Un V désignant l'intersection des ensembles U et V .... 


l'équation précédente peut encore s'écrire 


GMA, Zs) + G (Y:3 2:,2} G(IYs + 307, Uz.). 


On en déduit le théorème $ 


e] 


A 
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Théorème : La condition nécessaire et suffisante pour 
que H soit additive est que g soit telle que pour tout tri- 
ple Y, Z, Z' la fonction : 


g(YnZ ) + g ( ynz' ) - g ((xnz )u (ynz')) 
soit une fonction additive en Y., 


Limitons-nous maintenant au cas des valuations numériques 
c'est-à-dire à celui où le seul invariant dé X intervenant dans 
g ( Xj) est la variable numérique Pr(X;i ) On a : 


La condition nécessaire et suffisante pour qu'une va— 
luation numérique continue soit additive est qu'elle soit 
une information de SHANNON, 


En effet, posons g(U) = u g' (u) ( u = Pr (ËEu)) 


la condition devient 1: 

nd (uyoz hero zt guy 2) (y 254 yzt) cg" (y z#6y2st} 
= y K (z 2!) 

où K ( z z' }) est une certaine fonction de z et de 21, 


Supposons que Zz = z', il vient 3: 


g(yz)-g(23%72- > K_( 2,2) 


Z 


Le second membre étant indépendant de y, doit l'être aussi de z 


et l'on retombe sur l'équation de SCHRODER, 


Dans le cas général, on retrouve évidemment les informations 
H et en outre toutes les expressions de la forme D ( H )où D est 
un opérateur linéaire,mais l'inventaire complet de ces valuations 
reste semble-t-il encore à faire. 


EXHAUSTIVITÉ 


Nous pouvons encore appliquer ici cette notion si impor— 
tante introduite par M. je Professeur DARMOIS (16, 17) (Cf ‘aussi 


36,45). 


Considérons en effet plusieurs tirages successifs W, , MN... 
Mn de n et supposons que nous sachions mettre l'espace T1 x 
1:x......fin en correspondance biunivoque avec un autre espace 
Ex € satisfaisant à la condition suivante ; pour chaque va- 
leur fixée de Ë& , E' né dépendra plus de nm; que par un mécanismæ 
stochastique telque pour que l'opérateur S considéré, l'informa- 
tion correspondante est nulle, 


Dans ce cas H (ë ) = ZH (fi) et nous dirons queË est le 
résumé exhaustif des n; 


En particulier, si S annule toute expression qui ne dépend 
pas d'un paramètreB et si& est déterminé à partir de &' par un 
mécanisme constant, E est exhaustif pour les ni, 
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INFORMATION ET PROBABILITÉ D’ABSORPTION 


Le problème fondamental de l'information au sens où nous 
l'entendons ici est celui du rapport entre les opérateurs S et 
les êtres mathématiques auxquels correspondent les informations 
associées, Nous n'avons pu éclaircir pleinement cette question 
La difficulté semble debendne en majeure partie de lle que 
l'on éprouve à définir qu'elle est précisément la classé de ces 
êtres, L'analogie qui existe entre la physique quantique où l'on 
associe aussi opérateurs linéaires et observables pourrait peut- 
être servir de guide dans cette voie, 


Une autre approche qui semble fructueuse est celle qui 
relie la théorie de l'information à celle des probabilités d'ab-— 
sorptione 


Considérons chaque observation comme un mouvement aléatoire 
dans un certain espace, Si l'on a réussi à attacher un opérateur 
linéaire à une certaine frontière dans cet espace de tellé sorte 
que pour tout point de celle-ci l'information soit nulle, des 
théorèmes peuvent être établis qui relient le nombre moyen d'ob- 
servations à effectuer au gain d'informatÿon moyen réalisé à 
chacune d'elles, Le théorème très général sivagt que nous pen— 
sons nouveau est essentiel pour ce raisonnemént, 


Soit u une variable aléatoire qui s'accroit par saut à par— 
tir de zéro à chaque temps 1, 2 ...,n de manière absolument 
quelconque sauf qu'il y a une probabilité égale à 1 pour qu'elle 
atteigne la valeur K en un temps fini. 


Soit g ( a, a2.... a) la longueur moyenne du # n + 1)ième 
saut quand les positions successives de u LS à la séquence s; 


FU dc ne 
Théorème : Si quelle que soit la .4@ ce possible s; 


on à 
Lo 1€, AUS 


le temps moyen mis par u pour atteindre K est compris dans 
L'étntervaile, (=K>-/L,;.K /L°). 


Démonstration s Nous appellerons S l'ensemble de toutes les 
séquences sj se terminant par K et S l'ensemble (comprenant S) 
de toutes les sous-séquences formées par les premières valeurs 
des séquences de S , Nous poserons # 

P ( si) = probabilité que la séquence des positions de u soit Si 


On a : 


; 2 Pr 0, a a a ce) 
1 s GE _ 1 2 a 
(OS (sr) i( ne LE) pr CNE TUE T 2 : 


où la sommation s'étend à toutes les valeurs de ai, 
D'autre part le temps moyen T est par définition s 
ds à > _ = 
(2) T = 5 t (si) Pr ( Si) en notant t (si) 


le nombre des termes qui constituent la séquence S . 
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Cela peut encore s'écrire 


(207 = Pris) 


s # lé . ne F4 
où la sommation est étendue cette fois à toutes les séquences de 


5. En effet à-toute séquence 3: si= ( O0, a,, a,, .:san) entrant 
dans (2) avec le coefficient t ( si ) = n correspond dans (3) la 
somme 


EPA I Prhlona, a,)=5t;245,Pru( o/a;sa; 4. ca), 


Par sommation sur toutes les séquences (1) donne en posant 
A (s;j ) = dernier terme de la séquence si: 


RsPr(si) g ( si) ZE (a-A(s))}P (si) =Kk 


puisque tous les a; (sauf si As; ) = K ) entrent munis du signe 
plus et du signe moins avec la même somme de probabilité, 


Donc si l'on peut poser g (si) = L + L' (si) où L est indé- 
pendant de si, il vient en introduisant cette valeur dans (4): 


L fr Pr si K =. jsL' (5) Pr(s;) 


d'où le résultat annoncé quand L est choisi de telle sorte que 
l'on ait toujours 3: 


L'RFSO US 0) Louis). 22:0 


III. - LES INFORMATIONS PARTICULIÈRES 


L'INFORMATION DE SHANNON WIENER 


Le problème considéré par SHANNON (72) et pour lequel il a 
été amené à définir cette expression est le problème du codage 
et nous ne ferons guère ici que retranscrire en un langage plus 
familier aux statisticiens les résultats obtenus par cet auteur. 
En effet, comme on l'a très vite remarqué, il est équivalent 
soit d'étudier une source aléatoire émettant des signaux élémen-— 
taires avec des fréquences a priori données, soit de considérer 
une aléatoireëayant pris l'un des états Xj € X et de chercher à 
reconnaître celui-ci (à faire un "diagnostic" })par une série 
d'observations élémentaires, 


Chaque observation consistant essentiellement en une parti- 
tion d'un sous-ensemble de X, une famille d'observations succes- 
sives permettant un diagnostic complet deë (nous dirons une 
“procédure") correspond à un arbre, au sens que nous avons donné 
à ce terme dans la première partie et on associera à chaque état 
X; le nombre d'observations L (x; ) qu'il faut effectuer pour ap- 
prendre quebeX;i,. Un état x; deË étant un "message" dans le lan- 
gage de la théorie des communications, L(X;j) n'est autre que la 
longueur du mot X;j dans le code spécial qu'est une procédure, 


Venons-en maintenant à l'information de SHANNON-WIENER, 
dite aussi "sélective" quoique à vrai dire l'emploi de ce mot 
soit assez peu explicite, car presque toutes les autrés informa- 
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4 . . . LA 
tions sont aussi sélectives. C'est la seule information numé— 


rique,c'est-à-dire, comme on l'a vu, telle que les Pr (EE X,) 
n'interviennent précisément que par leur valeur numérique. Elle 


n'est définie qu'à une constante près et nous poserons 3 
H =3>p; Log, 1/P; ( Log, = Log de base 2 ). 


On voit sans peine que H est toujours positive et qu'elle n'est 
égale à zéro que pour un système de Xj tel que tous les p; soient 
nuls sauf un égal à l'unité, Ce cas correspond exactement à la 
situation de l'observateur quand il a achevé le diagnostic de ë 
et nous pourrons donc appliquer le théorème du chapitre précé- 
dent sur les probabilités d'absorption, 


Enfin, sië ne peut prendre que N états distincts, on véri-— 
fie sans peine que H est maximum quand tous les pj sont égaux à 
1/N. Ceci correspond bien à l'idée intuitive que l'on a de l'in 
certitude la plus grande sur l'état deë telle qu'elie s'exprime 
par exemple dans la théorie du théorème de BAYES,. La valeur de H 
est alors Log2 N et l'on voit que le choix de la constante était 
du au souci d'avoir H = 1; pour une observation dichotomique op- 
timale, Enfin, pour clore ses généralités, faisons remarquer que 
l'inégalité H> O0 n'empêche pas qu'après une observation l'on 
puisse se trouver avec une incertitude plus grande qu'avant 
celle-ci, Par exemple si p, = 0,98 ; p, = 0,01 ; p; = 0,01, 
l'information initiale est 0,161; après qu'une première observa— 
tion ait permis d'écarter X;j, elle devient 1,00. Trop fréquents 
sont les jours où la quasi certitude se change en doute complet 
pour qu'il soit nécessaire d'illustrer par des exemples, 


Avant de passer à l'étude des propriétés de l'information 
de SHANNON WIENER, nous donnerons quelques indications sur son 
expression analytique. 


Posons Sr æ >p" (donc S, = 1) et 
Fa ke 
b (kr) = l'ŒUS pour r>2 et 1/h pour r = 1, 
1 


Pour toutes les valeurs de k on a l'inégalité # 
K+1 


Log H> 2. DCR TES 


le second membre livrant un développement asymptotique de H en 
fonction des $S ; 


En effet, il suffit de développer chacun des termes Log1t/pi 
: cc r 
sous la forme pi P; 2 (1-pi) puis de sommer sur les in- 
P= 


dices i. On obtient ainsi pour les premières valeurs de ki: 
[H Log,>11/6 — d:52 + 3/2 Sa =$4 > 3/2 205472 S3>1=-S2 


Qu'on ne trouve par cette méthode qu'un développement 
asymptotique, valable seulement pour k fini est évidemment lié 
au fait que déjà dans le cas d'une variable dichotomique H n'est 

as développable en série de puissances de la variance pq (Cf. 
plus bas "Information de WALD'",.) Nous n'insisterons pas plus sur 
ce point qui ne semble pas avoir été remarqué, mais qui présente 
peut être un certain intérêt en liaison avec le problème d'ex-— 


primer H en fonction des autres invariants classiques de la dis- 
tribution deë . 
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On peut signaler enfin que les résultats précédents donnent 
la formule commode :; 


H Log, #Log N + 1/2 var ti , quand les p;j sont de la forme (1+ti)N°! 


avec tj tendant uniformement vers zéro, 


Venons-en maintenant aux propriétés de l'information H, On 
‘a d'abord le théorème fondamental de SHANNON : 


Théorème 3 Si l'information attachée à chaque observa- 
tion est toujours comprise entre deux limites H,et H,, le 
nombre moyen L d'observations nécessaires pour établir le 
diagnostic de£ est compris entre H/H, et H/H, ou ‘Herest 
l'information a priori surë . 


Ceci est une application immédiate du théorème sur les pro- 
babilités d'absorption. Un résultat plus profond du aussi à 
SHANNON est le suivant que nous formulerons ainsi ! 


Si toutes les procédures ne comportant que des obser- 
vations en K composantes (ou moins) sont possibles on peut 
Log, 
en trouver une telle que LK<1 + 
Log K . 


Rangeons les X;j par ordre de probabilités p; décroissantes 
et associons à chaque X;j la somme P; = z P; avec P, = 0 .  Dé- 
veloppons chaque P, en une somme de fractions K-adiques : 
aj4 aiz aix ' 

PE ..+ de dénominateur K , Pour la première ob- 
K l' K* 

servation nous grouperons ensemble les Xj ayant même valeur de 
aj, pour les secondes ceux qui ont même aj;et ajÿ,etc.... 


Sir est défini par Logx 1/p; < ri <1 + Log 1/p; ,on voit 
que pi diffère de Pp;j,, au moins à la rjième place de son dévelop- 
pement et que, par conséquent, si E € Xj, le diagnostic est ache- 
vé en r;j observations au plus, En multipliant chacune des inéga- 
lités précédentes par Ps puis en sommant, on retrouve bien le 
résultat annoncé, 


Cette procédure est en général très près de l'optimum, Nous 
indiquerons cependant d'après D.A.HUFFMAN (41) une méthode qui 
permet d'obtenir celui-ci, 


Par définition L = > p; L (Xi) ; si donc l'arbre définis- 
sant la procédure est donné, L sera le plus petit possible quand 
on aura permuté les Xj de toile sorte que p,<p; entraîne L (2x0) 
<L ( Xj). Par conséquent, les K ensembles X; ‘ayant les probabi- 

lités les plus faibles bent être distingués les uns des au- 
tres dans une seule et ultime observation, 


Considérons maintenant la variableëqui a la même distribu- 
tion queË sauf que l'on considère comme un seul état les K états 
X; précédents, Le même raisonnement s'applique et l'on aboutit 
ainsi de proche en proche à n'avoir plus que K'<K ensemble, 
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Traitons à titre d'exemple le cas suivant où les observa— 
tions sont toutes dichotomiques et où l'on s'est donné les pro— 
babilités suivantes de six états possibles dé l'aléatoire : 


p, = 0,26 p,=0,21 p,= 0,19 p, = 0,16 p, = 0,11 p, = 0,07 


La procédure qu'indique la méthode de SHANNON peut être symboli— 
sée par(( X:) (X2,X3))((X:), (X5, Xe))] où les parenthèses superpo-— 
sées indiquent les observations successives. On a donc 3 


L=/2:x 0,26 + 3 x 0,21 + 3 x 0,19 + 2 x 0,16 + 3x 0,11+,3 x 0.07 
= 2,57 observations. 


Dans la méthode de HUFFMAN on considère successivement les 
ensembles suivants :% 


026 %7/20,21- /-0,19 17 0,1674/20$ 110 70/07 
Dao 0 2l. 710,19 4 0 10-0110 UT COUT 


UE 345/%20,18 4:0,16027//0,26- 0/00 2119/00/19 


[e 
IN 
[e 
il 


D210 510 19-1/20,447 2720726 
0,60 = 0,34 + 0,26 / 0,40 
ce qui conduit à la procédure rigoureusement optimale 5 


(CL (ORACLE (xs) 
qui donne à peine un gain de 2 % puisque : 


Lie 2x 0,26 + 3 x 0,16-#-4 x 0,07=+ 2 x°0,21 f 2x 0,18 = 2,53 


Signalons enfin la méthode de FANO (21) qui consiste à di- 
viser chaque fois selon les probabilités aussi voisines que pos-— 
-sible de 1/2. Nous aurons à revenir longuement sur ce point de 
vue dans la IlIème partie, 


Cas d'une variable continue, 


Nous ne ferons qu'énoncer les résultats suivants dus aussi 
à SHANNON et qui constituent l'essentiel de ce que l'on connait 
des propriétés générales de cette information pour une variable 
numérique répartie de façon continue, 


Valeurs extrêmes : Sië varie entre a et b finis,H maximum 
correspond à une répartition uniforme de la probabilité et est 


alors égal à Log, ( b - a ) ce qui est le cas considéré par 
WIENER. 


Sië varie entre O et l'infini, H maximum pourËé fixé corres- 
pond à la répartition aexp{ax) où £ =a-1 et est égal à Log. a e. 
SiË varie entre plus et moins l'infini, H maximum pour une 


variance fixée correspond à la distribution de LAPLACE GAUSS et 
est égale à Log V2Ke.c. 


Cas de plusieurs variables 


SOLt E = ( Xi y X2os+eXn) = un vecteur aléatoire de densité 
de probabilité f(E ) 
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Soit n(£ ) = y ......y ) un autre vecteur obtenu par une 


transformation continue (non aléatoire) deË£ , Les informations 
attachées respectivement à6 et ànsont 


H(5 ) ét H(n)= H(E ) —- E(J) où E(J) désigne la valeur moyenne 
du jacobien de la transformation, 

La distribution de LAPLACE GAUSS à n variables est doué des 
mêmes propriétés extrêmales ue la distribution à une variable 
et l'on a s H = Log ( 21e)” ]|ai;|/où laijl est le déterminant 
des a;jj définissant la forme & quadratique B AE* dont la distribu- 
tion est laplacienne. 


Addition de variables aléatoires indépendantes, 


D'après le théorème général, la somme des informations re— 
latives à deux variablesE et E' indépendantes est égale à l'in- 
formation relative au couple ( Et Et). Si au lieu du couple on ne 
connait que la sommeE=E+ &' on a seulement les inégalités : 


RCE ) + NC E'XN (L)< var E + var E 


ou N&@ désigne "l'entropy power" c'est-à-dire la fonction 


1/2He.exp2 H(x) et le remplacement de l'une des inégalités par 
uné égalité n'est possible que dans le cas d'une distribution de 


LAPLACE GAUSS où les trois expressions sont d'ailleurs égales, 


L'INFORMATION DE FISHER 


C'est, comme nous l'avons déjà dit, le premier exemple 
d'information qui ait été étudié et c'est aussi peut être celui 
qui joue le rôle le plus important dans la statistique mathéma— 
tique. 


Nous nous bornerons à définir l'information de FISHER dans 


le cas où les Pr( Xi) = p; dépendent continuement d'un système de 
paramètres 6j ( j = 1,2,....m) que l'on cherche à estimer (Cf. 
1,20). 


Définition $ L'information de FISHER H est la valeur 
moyenne de la matrice hessienne de Log 1/pi par rapport aux 


(Fe 
Par conséquent H est définie dans le module des m x m ma— 
trices et l'opérateur linéaire S est symbolisé par la matrice 


d'élément générique  . : 
GAL 


11 en résulte que si l'on fait une transformation fonction- 
nelle sur les6j, la nouvelle information est égale à l'ancienne 
multipliée par le hessien de cette transformation, 


Dans le cas où nous nous sommes placés on a évidemment 5 


-Ep; d? Cogpr een (ri) (Dori)-r 2 pi 


1! 9600! OP? 
“À . ad 2 EN SR 
(l 
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Comme Z2p; = 1, le premier terme du dernier membre est iden-— 
tiquement nul et l'on obtient le resultat classique : 


L'information de FISHER est égale à la matrice des va- 


riances et co-variances des dérivées logarithmiques des p; « 


Le théorème fondamental est alors le théorème de FRECHET 
DARMOIS ( 30.18.19) qui associe 1/H à la variance d'échantillon-— 
nage de toute estimation possible des6@4, Nous nous bornerons au 
cas où il n'existe qu'un seul paramètre, et désignant par xj une 
observation deë , nous supposerons queq(x) est une fonction 
d'estimation correcte c'est-à-dire telle que : 


zr (x) =6 
Par dérivation par rapport à @ il vient 3 
Zg(xi ) p; so Log p; = 1 
d8 
et comme $ 
PRE Log p;j = 0 
on peut écrire 3 
E (p{ xi ) -6)p; . Log p; = 1 
d'où, par l'inégalité de SCHWARTZ : 
Var (0 - ® (x) > t/Var Es Log p; = 17h 
d0 


Ce que nous énoncerons par # 


L'inverse de l'information de FISHER est la borne in-— 
Lérieure de la variance de toute estimation correcte 
de : 


On sait aussi, ce que nous ne démontrerons pas, que cette 
borne est atteinte asymptotiquement quand @ (x ) est la fonction 
d'estimation basée sur l'équation au maximum de vraisemblance, 
Pour un nombre fini d'observations, on ne peut avoir égalité que 
SUHUIECx) — 10") VP;est proportionnel à Pi Log pi. Dans le 


cas continu, ceci entraîne que Log f(x) soit de la forme : 
a (0 ) lb (Lara) 


ce qui peut aussi s'écrire, moyennant un double changement de 
variable, sous la forme que nous retrouverons plus tard : 


FD Den 60 | he 1ty) expV-1 ty 


où g(t) est la transformée de FOURIER de f(y) 


Les extensions du théorème fondamental sont nombreuses : 
D'abord au cas continu où la sommation est remplacée par une in- 
tégrale de HOLLINGER (15) et où l'on doit imposer en plus ou 
bien la condition que les limites de la variation deË ne dépen— 
dent pas de $ ou bien que f(E ) s'y annule, Ensuite, au cas de 
plusieurs paramètres (Théorème de DARMOIS) où, de nouveau, 


apparaît une liaison certaine avec les propriétés de la trans- 
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formée de FOURIER de la distribution. Enfin, un théorème ana- 
logue (CRAMER-RAO) (15) vaut dans le cas où les estimations 
sont affectées d'une erreur systématique et dans celui de 
HAMMERSLEY(37) où6 est astreint à n'avoir ses valeurs que dans 
un espace discret. Nous ne pouvons naturellément pas songer à 
donner même un sommaire des travaux relatifs à cette question, 
ce qui serait écrire l'histoire de la théorie de l'estimation, 
soit, pratiquement, de la statistique mathématique. 


Nous démontrerons pour terminer un théorème qui est en 
quelque sorte le converse du théorème de SHANNON sur le codage. 


Bornons-nous encore au cas d'un seul paramètre. L'expres— 
Sion "information de FISHER relative à 6 contenue dansé “ a un 
sens bien clair et il est intéressant de savoir quelle fraction 
de cette information peut être gagnée en moyenne par une seule 
observation dichotomique, 


Ces considerations semblent pouvoir présenter quelque inté— 
rêt pratique dans certaines applications de la méthode de MONTE- 
CARLO où il pourrait être relativement plus aisé de savoir si& 
appartient ou non à un certain intervalle pour un grand nombre 
de tirages que de déterminer complètement la valeur pour um nom— 
bre moindre d'épreuves, 


Théorème ; Si l'aléatoire considérée est susceptible 
de prendre N états, il en existe au moins un tel que l'in- 
formation attachée au fait de savoir siëest ou non à cet 
état soit au moins égale à 1/N-1 de l'information totale 
contenue dans E 


En-effet, en posant”: 
d 
G 
N 


HT : 
H= > u, RCE me Gien 0 CL 
_ Î 


1 


u;, = P; je V4 p(l-p;) = H/N-1 + xj , on peut écrire 3 


d'où le théorème, puisque ) (1-p)x; est nul et que, par consé- 
quent, l'un des x au moins lest plus grand que zéro s'ils ne sont 
pas tous nuls, 


Le contre exemple suivant montre qu'il'n'est pas toujours 
vrai que l'on puisse obtenir dla moitié de l'information en ue 
seule observation, 


pjimait t':5.p) = a it sp, = 1/2 a + t ; p, = 1/2 -a-t 
avec a tel que a(l-a)< 1/32. 
Cependant nous avancerions volontiers l'hypothèse que des 


conditions générales très simples peuvent assurer cette possibi- 
lité d'une seule observation préférable à elle seule au reste du 


diagnostic. 
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Voici maintenant un théorème qui facitite singulièrement la 
recherche de cette observation dichotomigque optimale. Appelons 
“premier composant" celui des deux sous—-ensembles X' qui la 
constituent dont la probabilité a priori Pr(xX'}) est plus petite 
ou égale à 1/2, En changeant au besoin le signe de, nous pou- 
vons faire en sorte que 5 Log Pr(x') soit non négatif. 

Théorème Le premier composant de l'observation opti— 
male contient tous les états tels que la dérivée logarith- 
mique de leur probabilité soit supérieure à une certaine 

valeur non négative K 


Pour établir ce résultat, nous étudierons d'abord les cas 
particuliers de 3 et de 4 états, Ceux-ci étant notés : À, B , 
CN Usoientipr,tq + r', stleurs “prohabitités ets Nb}, ce 
d les dérivées logarithmiques correspondantes, 


Sivtrois états À ,-B ebuC tels=que a hb'/c-sont/en-cause, 
la perte d'information associée au fait que l'observateur confond 
A et B est donnée par 3: 


De 4 pobe = ( p —-.q ) (ip a+ ah) Jo + q Ÿ=(a-b) pra 


11 en résulte que l'observation symbolisée par (AC)(B) et 
consistant à confondre les états À et C n'est jamais meilleure à 
la fois que les deux observations ( AB) (C) et (A) (BC). 


En effet, on devrait avoir : 

2 
(a-cŸ pr/p+r &(a-b) pq/p+q et (a-c)? pr/p+r <(b-c) aqr/a+r 
soit encore : 


Dur q+r E 
+ (a-c) Sr en te ab + b-c = a-c 


(a-c) pr Hd 
p+r pq 


ce qui est impossible puisque 5: 


2 
DST EEE >tCp+a) + pCatr),, 
p+r bp q p+r dur qg?{ p+r) 7 


Soient maintenant 4 états avec encore a>b»>c>d. 


Montrons que l'observation dichotomique (AC) (BD) ne saurait 
être la meilleure et pour cela posons A' = À + C et D' = B + D : 
les nouveaux états A' et D' correspondent au regroupement de A 
et de C d'une part, et B et D d'autre part et leurs dérivées lo= 
garithmiques sont s 


ARE (bpia + r ci) /ipammét di qbresia dde 


Si (AC) (Bb) était optimale, A'(BD) qui n'est qu'une autre 
CE Larb)(E) ve observation devrait être meilleure que 
A'B)(D) et (A'D)(B) et de même (AC)(D') devrait être meilleu 

e 
que (A)(cb') et (ab)(c). É 


Ceci entraîne : 
(b-d)? q s/ q+s <(a'-b}? (p-r)q / p+r+q 


(a=-cŸ pr/ p+r <(c-d'} r (q+s) / r+q+s 
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à En outre, on doit avoir a>a'>b et c> d'>d car sinon, d'a- 
près ce qui vient d'être vu pour trois états, ni (BD)(A'}) ni 
(AC)(D') ne sauraient être optimales, Ceci conduit aux nouvelles 
inégalités # 

83-b = p(a-b)- r(b-c) /p+r <(a-b)p /p+r 
et c-d' <(c-d)s/s+q 


Comme c<d et que,par conséquent, a=b et c-d sont plus peti- 
tes que a-c et b-d, on a : 


(c-dŸ< (b-4Ÿ £ (a'-b} (p+r)a(p+atr) q' s' (q+s) 
(a-b}? p? s°" (p+r) (q+s)(p+a+r)" 
De même ; 
(a-bf < (edf sp (p+r)(a+s)" (a+r+s)! 
ce qui ne se peut pas puisque ps est sûrement plus petit que : 
(p+q+r) (s+q+r). 


La démonstration est achevée puisque X' étant le premier 
composant de l'observation optimale, le résultat précédent mon- 
tre que si les états Y et Z appartiennent à X' il doit en êtrede 
même de tous les états T tels que : 


d d 
C'est-à-dire enfin qu'il doit exister une valeur K telle 


que tous les états, dont la dérivée logarithmique de la probabi- 
lité l'excède, appartiennent à X'. 


d 
Log Pr TK TEE Log Pr Z 


11 reste à prouver que cette limite K doit être non néga- 
tive. 


Posons Log Pr(x') = P'/P (P=Pr(x') 


d 
d 0 
L'information associée à l'observation optimale peut être écrite 
2 


en P) * Si X' contenait un état Y tel que la dérivée logari- 


} 


thmique correspondante soit non positive, l'observation (X'(Y) 
(X''+Y) serait meilleure que ( X')(X'') car 


d 
d 8 
Pr (X'-Y) x P(X'+Y) serait plus petite que Pr(x') Pr(x''). 


d 
Pr (X'-Y) serait plus grande que carre 


… L'INFORMATION DE WALD 


- Nous pensons pouvoir donner ce nom à l'expression que nous 
allons étudier en raison de la place capitale que, sans la nom- 
mer d'ailleurs, A.WALD lui a fait jouer dans l'analyse séquen- 
tielle (85). I1 en est de même des autres auteurs qui l'ont 
considérée: ceux-ci ou bien n'en ayant pas reconnu le caractère 
d'information (57) ou bien ayant préféré ne l'envisager que 
comme une expression accessoire (46,47) de l'information de 
SHANNON. 
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Définition $ les p; (8) dépendant d'un système de para— | 
mètres symbolisé par l'information de WALD, W(0) est défi- 
8-80 
CEUR 


Par conséquent W(8) est la valeur moyenne de la variable z; 
qui représente le logarithme du rapport des vraisemblances de 
l'évènement x, dans les deux hypothèses: 


nie par l'opérateur linéaire [ ] 


K=0 = ‘0 et X1: 6 =8, 


o 
On a la propriété très importante 3 


W(9) n'est jamais négatif et ne s'annule que si pour 
tous les états p, (8) est égal à p; (8), ceci étant son seul 
minimum, à la fois comme fonction des p; (04) et comme fonc— 
tion des p; (81) 


En effet, pour un système quelconque de variations des p; (61) 
on a: 


d W(8,) = Z d p; (81) {1 + Log Bo) uroup (0) /p; (ei) = cons— 
tante. 


Et de même : 


d Wa) 


Re d p; (81) avec > d p; (8i) = © 


i pj (6i 
D'où le résultat annoncé, 


Dans le cas dichotomique , on a l'inégalité suivante qui 
semble nouvelle. Ecrivons # 


D = pr (Ga). = p (Bi) -=«q(di)2"q "(te) 


Posons en effet 2 p (8) = 1-x et 2 p(8,;) = 1-y après avoir 
choisi p de telle sorte que x soit positif, 


On peut développer W en série de puissance de x et de y : 
2 W = (1-x) Log(l+x)/(1-y) + (1+x) Log (1+x)(1+y). 
On trouve 3: 
2 S ? : 2i 93 Ly2i-1 2i 
W= 2 (451 27) (as D y) 
Tous les termes sont positifs car le polynome 


2i £ EE : 
t —-2it+2i-1 a un unique extremum pour t = 1 et prend en ce point 
la valeur O . 


Bien plus :; 


Ki 2ixy 7 +(21-1)y = 04 DA (RE PRE EE ; SX AA ENE 


Eire) 
Par conséquent W est plus grand que la somme des deux pre— 
miers termes de son développement qui sont 5: 
2 ‘ € 
4 D°/2 et 4 D°/12 (x?+2x y+ 3 y?) et la valeur de ce dernier po= 


lynome étant supérieure pour D fixe à D?/3 on trouve bien le ré- 
sultat, 
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à Siu désigne le plus grand de x et de y on a enfin l'tnéga— 
lité complémentaire suivante qui se déduit du développement pré- 
cédent 


WN<2:.1°- (x) 


On observera qu'en faisant p (01) = 1/2 les résultats précé- 
dents permettent de trouver un développemnt de l'information de 
SHANNON en série de puissances (paires) de : 


X = p-q = (1-4 p q) 1/2. 


Le théorème fondamental qui donne un sens physique a l'in 
formation de WALD appartient à la théorie de l'analyse séquen- 
tielle., 


Soit à choisir entre les deux hypothèses et Xid'après une 
méthode telle que les probabilités d'erreur soient inférieures 
ou égales respectivement à a et b selon que la vraie valeur de 
8estfou8;; l'analyse séquentielle prescrit l'emploi du "“séquen- 


tial probability ratio test" qui consiste à effectuer une série 
de tirages successifs indépendants de x,, X2..Xnde Ë jusqu'à ce. 


n 
que la somme Z,=2za4atteigne l'une des deux limites À et B cal- 
culées à l'avance, 


Comme z;,; = Log es us), ceci revient exactement a pour- 


suivre le test jusqu'à ce que le rapport des vraisemblances des 
deux hypothèses ait atteint certaines limites. 


Nous appellerons No et Nile nombre moyen d'observations né- 
cessaires pour achever le test selon que c'est X,ouXqui estvraie. 


WALD a montré (86)qu'aucune autre procédure ne saurait être 


uniformément meilleure que le "sequential probability ratio 
test", 


Mais les démonstrations sont trop longues et font appel à 
trop de notions extérieures à ce travail pour que nous puissions 
songer à les reproduire ici. Nous nous contenterons en suivant 
WALD lui-même à établir des résultats approchés valables quand 
les limites À et B sont assez grandes par rapport à |zlpour que 
l'on puisse considérer comme pratiquement nulles les différences 
IZ,-Alet |[Z1-B|. 


Choisissons un entier N tel que soit négligeable la probabi-— 
lité que la procédure ne soit pas achevée au NIème tirage, 


Supposons que n soit le numéro d'ordre de tirage auquel 
l'une des limites a été atteinte, mais que l'on ait quand même 
continué les observations jusqu'à N. On a, en désignant par E 
l'opération "valeur moyenne pour un 6 donné": 

N n N 
PU Enr 7 Ts 
d'où puisque n est une variable aléatoire : 


n 
NW=E (2 zt) + E (N-n)W 


soit : E (> Zæ)= E (n) W 
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n 
Soient a et bles probabilités que Zatteigne respectivement A et 
B, on a enfin 3 


=4 
E (n) =(a À + b B) VW 

Dans les hypothèses d'approximation où nous nous sommes pla— 
cés on peut donc énoncer en tenant compte du théorème d'optima- 
lité de WALD 3 


K/W (8i)où K est une fonction de a et de b,limite infé- 
rieurement le nombre d'épreuves indépendantes nécessaires si 
9= 6; pour tester l'hypothèse X, contre l'hypothèse #, avec 
les probabilités d'erreur a et b. 


On remarquera l'analogie de cette propriété avec le th éorème 
de FRECHET-DARMOIS, Nous allons voir que la liaison n'est pas 
fortuite et que l'information de WALD établit bien une médiation 
entre les problèmes de diagnostic et les problèmes d'estimation. 


On a souvent observé (notamment 4) que si les p;(t) sont des 
fonctions deux fois dérivables du paramètre inconnu, l'informa- 
tion de FISHER (que nous écrirons ici F (t))apparaît dans le dé- 
veloppement en série de TAYLOR de W(t)}), 


De fait on peut établir le résultat plus fort suivant : 


Si to= t + dt et t,= t - dt; W(t,jet W(to) ont les mêmes 
parties principales 2 F(t)qui est aussi la moitié de la va- 
riance de Zz;, 


On a en effet les développements s 
p; (tttdt} =ph(t)tpt (t)rat + ptt(t)ran rt oar 
Mort = 2 pt (t)/p; (t) dt+Rdts 
Donc en négligeant 1es termes d'ordre supérieur œ égal à dt° 
M(td = W(t) = 25 (pi (4) /p; (t)) at = 2 F (t) at? 
et Var(zo) = 4Zp{t) (p' (t)/p;(t)Ÿ at =4r(t) at? 


Par conséquent, si l'on effectue un nombre N constant et 
très grand de tirages et si XetXdiffèrent extrêmement peu, la 


variable réduite 3: 
x n 
Z, = > zi \ (4 F(t) / dt 


est distribuée comme une variable de LAPLACE GAUSS de variance 
unité et de moyenne + (Ft) 1/2 Ndt selon que c'est X oukqui 
est vérifiée ce qui montre que,comme on le soupçonnait,les pro— 
babilités a et b ne dépendent à la limite que de F(t) 


CAPACITE. 


Nous ne possédons aucun théorème suffisamment général qui 
donne, comme dans le cas de l'information de FISHER, une aide 
pour étudier l'efficacité d'une observation unique. Il y a là un 
domaine de récherches très important qui se rattache, semble-— 


t-il, à la théorie des inégalités relatives aux fonctions 
convexes, 
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Plus généralement, il nous faudrait savoir résoudre le pro- 


blème suivant qui contient les précédents et que nous reformule- 
rons d'après SHANNON, 


Soient Xj les états de Ë . Supposons queË soit elle-même 
inobservable mais que l'on puisse déterminer l'état d'une se- 
conde aléatoire, dépendant deË par les probabilités condition- 
nelles Pa(ney;l 6 EX) =pili- 


Nous avons vu que l'on a quelque soit S : 
H (£ xn) =H (E) +4 (nIE) = H (n) + H (£1n) 
SHANNON(72) appelle "capacité" le maximum de H (Ë )- H (EIN) re- 


lativement aux pi= pr Ë< -X;) pour des Pjli fixés et donne la so- 
lution du problème consistant à trouver précisément les p qui 
assurent ce maximum dans le cas de l'information qu'il considère 


Le problème plus général consiste,soit à déterminer les p 
pour une information quelconque soit — (ce qui serait plus im-— 
portant dans la théorie de l'estimation et du test où il est 
fréquent que H (NIË) soit nul et où par conséquent comme on l'a 
vu H (ë ) - H (EN) = H (n))- de choisir les Pjji en tenant 
compte de certaines contraintes imposées par la technique d'ob- 
servation, 


Le théorème que nous avons donné plus haut est un premier 
pas dans cette voie et se traduit dans les notations de ce pa- 
ragraphe par j = 1 ou 2 et Pjli ="0"ou-"1, 


LES INFORMATIONS DE TRI 


Considérons une famille d'évènements ej que nous appelle- 
rons élémentaires et ‘dont nous supposerons que les probabilités 
a priori s'annulant pour t = O sont développables en séries de 
puissance croissante d'un paramètre t. Soit E l'ensemble de tous 
les évènements composés qui peuvent être construits à partir des 
e; par les procédés habituels de la théorie des évènements com 
patibles et dépendants (29), 11 est commode d'associer à chaque 
ei; son indicatrice xj prenant la valeur Ooul et au système des 
ej la variable 6 dans l'espace produit, 


X = X, X XoXeoso.eoX Xje 


Chaque évènement de E est alors caractérisé par un certain 
domaine X; de X et sa réalisation peut être notéeË(t Xj. Suppo= 
sons maintenant que des observations antérieures ayant ou non 
déjà restreint le champ E' des états possibles deË , nous effec-— 
tuions l'observation O correspondant à la partition (X; )}(X2).... 
(XKk) de Et. 


. L'information attachée à l'opérateur VW EsÈ-]t-o livre le 


nombre moyen d'évènements élémentaires supplémentaires dont O0 
nous permet d'apprendre qu'ils ont été réalisés, Nous appelle- 


rons cette information "information de tri de première espèce". 


Considérons en effet un sous-ensemble quelconque x; 
de’X. 
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Les deux assertions # 


"Xj n'est possible que si au moins nj évènements élémentaires 
au moins sont réalisés", et 


"Pr(Xi ) présente un zéro d'ordre nj à l'origine" 


sont équivalentes d'après nos hypothèses sur le développement 
des Pr(e;j) en puissance de t. 


Mais d'autre part si P = t'(a+bt +...) = t"' Q la valeur 
pour t = O de t < Log P = ni+t Q'/Q est précisément ni. D'où 
le théorème puisque, plus généralement, si on savait déjà que n° 
évènements ej devaient être réalisés, on aurait # 


ke 
bE= ie + et ie Log P| 
tar dt t=0 


Naturellement, si l'on avait choisi t de telle sorte que 
chacune des expressions l1-Pr(e;i ) présente un zéro simple pour 
t=1, on aurait une information analogue concernant le nombre 
d'évènements élémentaires non réalisés. 


= n,- n! 


RE , ' d + s =d 
Enfin à l'opérateur !: ir). La t) le 


correspondrait le nombre des évènements dont l'état est encore 
indéterminé. 


On voit que ces opérateurs diffèrent de celui associé à 
l'information de SHANNON par le fait qu'ils ne tiennent aucun 
compte de l'identité des évènements en cause mais seulement de 
leur nombre ou même plutôt du minimum de leur nombre. 


11 serait donc peut être plus imagé de parler d'''informa— 
tion de comptage". La terminologie adoptée trouve sa justifica- 
tion dans la Illème partie de ce travail(Chapitre 4'"Problèmes de 
trit}). 


Avant d'en terminer, nous donnerons encore un autre exemple 
d'information associée à des problèmes analogues. Toujours dans 
le cadre de ce système d'évènements e;j ,; supposons que nous ayons 
pu restreindreË par des observations préalables, à appartenir à 
un sous-ensemble E' impliquant qu'au moins n évènements élémen— 
taires sont réalisés, Limitons-nous aux observations qui ne 
changent pas ce minimum (c'est-à-dire à celles qui n'apportent 
aucune information de tri de première espèce) et faisons l'hypo= 
thèse supplémentaire que pour tous les e; le coefficient du 
terme t dans leur développement est égal à un . 


L'information de tri de seconde espèce associée à 


l'opérateur [ Jt:o livre le logarithme du nombre de manières 
dont la réalisation de n évènements élémentaires permet la 
réalisation de l'évènement observé, 


En effet, d'après les théorèmes classiques et les hypothèses 
faites, si Pr(xi) = a; "+ .,., c'est qu'il y a ai combinaisons 
de n évènements réalisés qui assurent que Et X+. 


Comme Pr(E') admet aussi un zéro d'ordre n avec un coeffi- 
cient que nous pouvons écrire a, chacun des Pr(X;|Et) correspon- 


+ 
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dant à l'un des composants de l'observation est de la forme 


AU DEL ANTON 
A ——— = aj/a + ct + c't? + ... 
DAME FEbUE ESS. d 


et par conséquent, la valeur pour t = O de Log Pr(£e E'‘) est 
bien Log ai — Log a, 


11 serait facile d'illustrer d'exemples l'emploi de cette 
nouvelle information et nous en trouverons aussi l'occasion dans 
la IIlème partie. 


On voit également comment pourraient se faire diverses gé= 
néralisations en introduisant par exemple plusieurs paramètres 
correspondant chacun à une sous-famille de l'ensemble des évène- 
ments élémentaires, 


11 y a là un domaine de recherches qui semble nouveau et 
qui serait de nature à éclaircir la signification physique des 
opérateurs S caractérisant les informations, Dans l'état actuel 
de nos connaissances et de manière plus heuristique que mathéma- 
tique leur rôle apparaît être le suivant : 


Dans chaque domaine (diagnostic, estimation...,) certains 
états de la variable aléatoire peuvent être considérés comme 
équivalents du point de vue spécial où l'on se place 3 ainsi 
dans les problèmes d'estimation par exemple, est-il indifférent 
que les tirages successifs aient donné les valeurs x, , X2e+++e%Xn 
ou toute autre permutation de ces n nombres. De même par hypo- 
thèse, lorsqu'il s'agira d'extraire d'une population infinie un 
objet présentant telle propriété spécifiée à l'avance ne nous 
soucierons-nous point d'apprendre qu'un ou plusieurs objets ne 
présentent pas cette propriété. 


Ceci suggère inévitablement le recours a la notion fonda- 
mentale d'exhaustivité introduite par Mr.le Professeur G.DARMOIS3: 
pour chaque type de problème seuls certains invariants de cer- 
taines classes d'états sont à considérer et leur connaissance 
épuise pour le but particulier poursuivi tout ce que nous dési-— 
rions savoir. 


11 apparaît donc légitime que l'opérateur linéaire destiné 
à transformer en une information efficace,-en une "information 
pour nous", — "l'information en soi", abstraite ei universelle 
Zp; S Log p;, fasse apparaître précisément cette équivalence 
des états et, par là même, réintroduise dans le concept d'infor- 
mation la notion de sa valeur que nous avions volontairement 
feint d'ignorer lors de la définition axiomatique, En même temps 
les informations qui sont des grandeurs physiques recouvrent une 
dimension — celle-ci d'ailléurs pouvant être aussi bien un nom- 
bre pur (information de WMALD) que l'inverse du carré d'une gran- 
deur (information de FISHER) selon le modèle dont elles sont un 
invariant., 

Dans cette perspective, on voit comment pourraient s'ordon- 
ner les différents types avec à la base l'information de SHANNON 
WIENER redondante par rapport à toute autre puisqu'impliquant 
une connaissance absolue de l'aléatoire, Ces remarques s'appa— 
rentent aux conceptions de MANDELBROT (55) sur le temps relatif 
des diverses stratégies liées aux théories physiques. Elles ex— 
pliquent, nous semble-t-il, le succès de l'emploi de l'informa— 


64 M. P. SCHÜTZENBERGER : THÉORIE DE L'INFORMATION 


tion de SHANNON dans l'étude de la transmission des messages en 
présence de bruit bien qu'en toute rigueur il s'agisse 1à d'un 
problème d'analyse descriminative (Cf.89, 66, 63, 75) - donc 
d'une information de Wald,. L'opérateur S= constante fournit en 
effet seulement une quantité approchée, qui est valable à la li- 
mite dans les cas particuliers envisagés mais n'est absolument 
correcte que si le bruit à une structure telle que l'on peut en 
principe achever le diagnostic (38) c'est-à-dire s'il n'est plus 
aléatoire quand l'observation dure un temps suffisamment long. 


IV. - PSEUDO INFORMATIONS ET ‘CHI CARRÉ” 


LES PSEUDO INFORMAT'ONS 


Nous appellerons ainsi certaines expressions qui quoique 
pouvant être mises sous la forme2p;j S Log Pi ne sont pourtant 
pas en général des informations. Le seul exemple que nous indi— 
querons sera celui des cumulants et celui des valeurs extrêmes 


Fe la variable aléatoire, qui dérivent, d'ailleurs de ces der— 
niers. 


Ë pouvant prendre les valeurs numériques xj avec les proba- 
bilités p; nous dirons que le paramètre t intervient de façon 
canonique dans la distribution de & si prend la valeur de x, avec 
la probabilité qj= pi (p(t)) 'exp(V=i t xj) oup(t) est la trans- 
formée de FOURIER de la distribution initiale c'est-à-dire,à une 


constante près y(t) =ÿp; exp VER 


Dans le cas continu on définirait de mêmes 
9 (6) =(derCE) exp Vite £(6) exp Vite 


I est clair que si t intervient de manière canonique dans 
la distribution des variables indépendantes £ et £' il en est de 
même pour la distribution produit symbolique £ x f' 


Par contre — et c'est pourquoi nous n'obtiendrons que des 
pseudo informations — si l'on considère la variableG déduite de 
Gen confondant certains états, les termes correspondants dans 
l'expression de q' ne sont pas réductibles à une paramétrisation 
canonique puisque, par exemple # 


p, exp V=i t x;+ p, exp V-1 t xone peut être mis sous la forme : 
(pb, + p,) exp V-i t y. 
Considérons maintenant les opérateurs :# 


h ah | 
Jh = (Vi) Le et les informations K} qui leur sont atta- 
chées, Par hypothèse : 


k= (VA) ("Lo (+) 


est le cumulent du hième ordre deC pour h}»>2 et est égal à zéro 
pour h = 1. 


à nait 
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Par conséquent : 


les cumulants sont égaux à des informations quand le 
paramètre est canonique et dans ce cas seulement #! 


Nous dirons que les cumulants sont des pseudo-informations, 
On retrouve bien ainsi leurs propriétés classiques d'additivité 
et, dans une certaine mesure, on voit comment pourraient se rat- 
tacher à la théorie générale les quantités introduites par 
BHATTACHARYYA (7, 8, 9). 


Sous des conditions très générales l'opérateur symbolisé 
_1 
par (i- Vi +) à un sens et donc ; 


le logarithme de la transformée de FOURIER de f (la 
fonction génératrice des cumulants) est une pseudo=-informa— 


tion. 


Si l'on est dans le cas continu et si a et b finis sont 
respectivement la plus grande et la plus petite valeur de È telle 
que f (EE) Z O, on sait d'après Polyà (65) que a et b peuvent 

tre retrouvés par des opérations linéaires sur Log.® ( t ) 
ceci resultant du théorème de PALEY-WIENER et du fait que g(t) 
est une fonction du type exponentiel. L'on a : 


a = Lim r-'Logw(V-ir) et b = Lim r°' Logæ(V=i r) 
n—æ +00 r>-00 
Par conséquent : 


Les valeurs extrêmes deëË-Esont des pseudo—-informa- 
tions, 


Ceci était d'ailleurs vraisemblable a priori puisque ce 
sont des grandeurs additives pour la composition des variables 
indépendantes, 


On observera cependant que l'ensemble des relations d'équi- 
valence correspondant aux regroupements d'états qui n'affectent 
pas la valeur de cette pseudo-information est beaucoup plus. 
vaste que dans le cas des cumulants, 


Par exemple, si l'on considère comme concentrée à l'origine 
toute la probabilité sauf une fraction£ en a et une autre €' en 
b, ces limites ne sont évidemment pas affectées, 


Nous ne saurions teminer ces brèves indications sans atti- 
rer l'attention sur un problème de nature analytique qui ne sem— 
ble pas avoir reçu encore de solution satisfaisante et qui est 
la réciproque des résultats précédents : celui de la détermina- 
tion directe des informations à partir de la seconde caractéris- 
tique sans l'étape intermédiaire du calcul explicite des proba- 
bilités de chaque état. 


LE “ CHI CARRÉ” 


Nous avons vu que l'information de WALD fournissait une 
sorte de pseudo-distance entre deux distributions, Les statisti- 
ciens font souvent usage depuis PEARSON (01,62) (Cf.40 et 56) 


d'in md 
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d'une autre grandeur qu'ils appellent communément le "chi carré" 
et qui est définie par 5 ce Re 
P; (80) - pi (61) 


2 
X i P; (00) 


X°, outre certaines facilités de calcul, possède des propriétés 
très intéressantes pour de nombreuses applications (1) d'inva- 
riance par transformation par un certain groupe orthogonal et de 
décomposition subséquente,. Manifestement x? est une valuation du 
treillis des partitions des états de l'aléatoire considérée et 
l'on vérifie sans peine qu'il ne jouit pas d'additivité pour la 
composition des distributions indépendantes, LEe "chi carré" 
n'est donc pas une information. 

Nous allons voir comment il est cependant possible, comme 
pour celles-ci, d'en calculer la valeur en utilisant des res- 
trictions du treillis de partition de X . 


Soit X = (X,) (X2) (Xs) et posons pour abréger 5 
P; (80) = ai 3 pi (01) = bi 


Si l'on considère que la partition (X,) (X:+ Xs) on a : 


“260 =D) (as rase, 4) 
Xe 
a! a) + az 


Si l'on se restreint au contraire à (X2) (X3) on trouve : 


x? . b2 ÿ( &2 H az bs ) as ) 
a) + az b, + by \a, + a \as + a; b, + b3/ \a, +343 
En vertu de l'identité : 


LA LA (x + x! }? … (x y — x! ve 
y y SR ST LI MIS ETES) 
il vient : 
= 2 + Ds 2 
rrreraeehée 
X (az + as a) + as 
formule qui est très analogue, mais cependant différente, de 
celle que nous avons postulée pour les informations, 


D'autre part, on peut écrire aussi X2 sous la forme : 


2 
À 
Zu en posant pi (t) = p; (81) -p1 (8) et comparer cette ex- 


pression à l'information de FISHER qui a la même a 
pparence for— 
melle, Dans cetté perspective on constate que la différence pro- 


vient ue Se ee si p' est effectivement TPS pj il doit de- 
exp Ca P : 
venir 2 quand on considère £ comme restreint à une 


partie X' de X de probabilité totale P, alors qu'il devient Le 
P 


dans le calcul de X* 


(1) En général les pi(t) ne sont | 
pas des distributions a priori mai | 

nombres de cas observés ce qui entraîne que leur somme est FAR YE PEL 
Ceci n'a aucune importance du point de vue où nous nous plaçons, ; 
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Nous arrêterons là ces quelques remarques qui n'avaient 
d'autre but que de relier en les contrastant la théorie du test 


\ 


de "chi carré" à la théorie de l'information, 


OO OO à € MN HA 
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I. - PROBLÈMES ET MÉTHODES 


LES MÉTHODES DE GROUPAGE 


Les méthodes que nous aborderons dans ce travail semblent 
n'avoir jamais été l'objet d'une étude systématique malgré la 
diversité des cas où l'on en fait un usage plus ou moins empi= 
rique (1). Nous nous proposons donc de définir exactement les 
hypothèses de base, de classer les problèmes possibles et fina- 
lement soit d'indiquer des solutions, soit de développer des mé- 
thodes générales permettant de faciliter leur recherche, 


Quelques exemples permettront de rendre plus clair la dis— 
cussion des hypothèses, - 


19 — Circuits électriques s Un appareillage électrique est 
hors d'état de marche. Pour localiser la "panne" on subdivise en 
sous-circuits que l'on "sonne" successivement. Le résultat de 
chaque épreuve permet de conclure, soit que tous les éléments 
constituant le circuit "sonné" sont en état, soit que l'un d'eux 
au moins, est défectueux, 


29 — Calculs numériques # Une série de calculs numériques 
est teïle que l'on possède une méthode permettant de décider 
pour certaines suites d'opération si elles sont toutes correctes 
ou si au moins l'une d'elle est erronée, 


3° — Epreuves biologiques : Ayant fait une série de prélè- 


vements,on les homogénéise et on effectue un seul ensemencement 
Moyennant diverses conditions de nature biologique un résultat 
négatif de l'ensemencement permet de conclure à la stérilité de 
tous les prélèvements. 


409 — Test chimiques ou sérologiques : La même possibilité- 


existe si l'on est dans un cas tel que la sensibilité du réactif 
soit suffisante pour donner une réaction positive, même si un 
seul des composants du mélange était marqué", 


(1) La seule référence que mous ayons pu retrouver dans la littérature est 
un travail de R. DORFMANN, (the detection of defective members of large po- 
pulation (1943). Ann. Math. Stats,.(14) p.436-440) 
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59 — Observation de hénotypes en génétique mendélienne # 
étant donné une paire d'allèles (A, a) d'un même gène à domi-— 
nance et pénétrance complètes, l'observation pure et simple d'un 
individu permet, si son phénotype correspond à l'allèle réces— 
sif a, d'être sûr que son génotype est à (qu'il est "homozygote 
récessif") ou au contraire, si son phénotype correspond à l'al- 


lèle dominant A, de savoir seulement que son génotype est à ou 


: sans pouvoir trancher entre ces deux dernières éventualités, 


LES HYPOTHÈSES DE BASE 


Dans tous ces exemples se retrouvent à divers degrés les 
mêmes particularités que nous discuterons d'abord ici avant de 
les formuler rigoureusement dans le chapitre suivant sous forme 
d'un modèle mathématique. 


19 — Les observations sont d'une nature telle qu'une obser— 
vation unique peut éventuellement apporter une certaine informa- 


S 


tion (1) sur plusieurs objets à la fois, 


29 — Cette information est par nature fournie de manière 
dissymétrique en ce sens que les divers résultats d'une même 
épreuve en apportent des ‘quantités" différentes voire même in- 
comparables au niveau purement intuitif où nous nous plaçons ici # 
pour le médecin par exemple, savoir que tous les membres d'un 
groupe ont un B.W, négatif ce qui assure qu'ils n'ont pas de sy- 
philis secondaire est un renseignement clinique utile, Ce serait 
pratiquement ne rien apprendre que d'avoir seulement la preuve 
que l'un d'eux a un B.W.positif si l'on devait continuer à 
ignorer qui d'entre eux est malade, 


39 — Le renseignement que l'on sollicite de l'expérience 
est de nature dichotomique ou dépend de caractères dichotomiques 
Ce calcul est-il juste ou non ? - Ces prélèvements sont-ils sep= 
tiques ou non ? Ou bien, mais ce n'est là,comme nous le verrons; 
qu'un stade supérieur de complexité du même phénomène ; combien 
de ces appareils électriques sont hors d'état ? — Quelle est la 
fréquence de cet allèle dans la population ? 


49 — L'observation ne fournit à chaque fois qu'une réponse 
par oui ou par non, donc dichotomique elle aussi, 


5° —- Le facteur aléatoire n'intervient pas dans le proces 
sus d'observation lui-même mais seulement, par définition, en 


tant que caractérisant notre ignorance partielle ou complète des 
objets sur lesquels portent nos investigations, 


6° — Pour autant qu'elles s'adressent à des objets diffé- 
rents, les observations sont indépendantes ou plutôt ne sont 
liées entre elles que par les paramètres qui ou bien,sont donnés 
explicitement (par exemple quand on connaît déjà la proportion 


(1) Nous prenons ici le mot "information" dans son acception la plus vague, 
On verra ultérieurement comment la spécification de concept joue un rôle es- 
sentiel dans la solution de ces problèmes, 
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des appareils électriques défectueux dans un lot qu'il s'agit de 
trier) ou bien, constituent le but même de la recherche comme 
dans le cas de l'estimation de la fréquence inconnue d'un gène 
dans une population. 


Nous allons maintenant reprendre un à un ces points et tout 
en donnant une formulation mathématique des hypothèses, discuter 
les raisons de notre choix. 


La propriété décrite en I° revient à dire qu'au lieu d'ob- 
server des variables, on observe des fonctions de plusieurs de 
ces variables ce qui est une démarche fréqwnte en statistique 
mathématique comme en témoignent, par exemple, les applications 
de l'analyse de variance à la technique des pesées. (Cf. Hotel- 
ling (1944) Ann. Math Stat (15) p 297-307). 


Cependant la seconde particularité introduit un élément 
nouveau qui n'apparaît pas dans les méthodes auxquelles on vient 
de faire allusion puisque celles-ci au contraire reposent sur 
l'homogénéité des différentes mesures et, partant, sur la possi- 
bilité de leur substituer des formes linéaires qui leur soient 
équivalentes, Cette dissymétrie est donc une caractéristique es— 
sentielle de notre problème et c'est précisément à elle qu'est 
due la possibilité d'économiser éventuellement des observations, 
11 y a là une analogie qui n'est peut être pas que superficielle 
avec les problèmes mathématiques de "type réel" où la constata- 
tion que la valeur d'une forme quadratique définie positive est 
plus petite ou égale à zéro, permet de conclure que toutes les 
variables qui y figurent sont nulles alors qu'on ne saurait que 
fort peu de choses sur elles si l'on connaissait seulement la 
valeur numérique (différente de zéro) de cette forme, 


Les conditions 3° et 49° s'imposent tout naturellement dans 
les exemples que nous avons donnés #; il importe peu en effet 
qu'un calcul soit faux de telle ou telle manière une fois que 
son inexactitude est établie, Ce n'est de même qu'à un stade ul- 
térieur de l'étude clinique que l'on aura besoin d'évaluer la 
quantité exacte de réagine contenue dans le sang d'un malade 
soupçonné de tréponématose, La pratique médicale courante dans 
ce cas est d'ailleurs de faire d'abord un test dit "qualitatif" 
puis, seulement si ce dernier est "positif" de procéder aux opé— 
rations sensiblement plus coûteuses en temps et en argent de ce 
qu'on appelle la ‘“quantitation". D'autre part remarquons que 
dans certains cas il existe simultanément plusieurs classifica- 
tions dichotomiques. Par exemple dans une étude par agglutina- 
tion des groupes sanguins dits "classiques" de LANDSTEINER on a 
les diverses possibilités suivantess avec un sérum contenant les 
agglutinines "alpha" et "béta" on peut classer les sujets en " O " 
(dont les hématies ne contiennent ni l'agglutinogène A ni l'ag- 
glutinogène B) et "non 0" (dont les hématies contiennent A, B, 
ou A et B), 


Dans ce cas mettant à part diverses considérations sérolo- 
giques extérieures à notre propos, il est théoriquement possible 
de vérifier d'un seul coup qu'un lot de sujets est constitué ex- 
clusivement de donneurs universels © (pas d'agglutination obser-— 
vée en testant un mélange de leurs sangs) ou contient au moins 
un sujet (A) ou (B) ou (A B). 


La dichotomie est donc (0)/ (A) (B) (AB). 
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Par contre avec un serum contenant seulement de l'agglutinine 
"alpha" la dichotomie serait s (0) (B)/ (A) (AB) c'est-à-dire 
que l'observation d'un mélange de sang permettrait de conclure $ 


- soit que tous les sujets sont O ou B (pas d'agglutination) 


- soit qu'un sujet au moins est A ou AB (agglutination). De 
même un serum "béta" conduirait à la dichotomies 


(0) (A) / (B), (AB) 


Nous ferans toujours l'hypothèse qu'il s'agit de la même 
dichotomie à l'intérieur de chacun des problèmes que nous étu-— 
dierons, Le cas où des systèmes plus complexes d'ôbservatiôns 
existeraient est d'ailleurs justiciables sinon des mêmes méthodes 
tout au moins,dans certaines limites, de leur extension. Il est 
cependant nécessaire d'introduire une nomenclature systématique 
qui caractérise, pour le mode d'observation employé, les alter-— 
natives qui sont en considération, 


Selon la suggestion qui nous a été faite par notre Maître 
Monsieur le Professeur R, TURPIN, nous dirons qu'un objet est 
marqué" s'il est possible de dépister en une seule observation 
sa présence dans un lot et qu'il est "neutre" si, au contraire, 
une seule observation permet seulement de le prouver tel quand 
tous les autres objets du lot sont "neutres" aussi, 


En ce qui concerne les observations, nous dirons que l'une 
d'elles a fourni un résultat "positif" quand elle a permis de 
prouver l'existence d'au moins un objet "'marqué"dans le lot; son 
résultat serait dit "négatif" dans le cas contraire. 


Le tableau suivant résume et explique cette terminologie 
dans les exemples que nous avons donnés plus haut 3 


Type d'observation Objets "marqués" Objets "neutres" 

19 Vérification électrique Défectueux Normaux 

2° Vérification des calculs Faux Corrects 

3° Ensemencements Septiques | Aseptiques 

40 Tests sérologiques ou Présence du Absence du 
chimiques réacteur réacteur 


Groupes sanguins 


0, A, B, AB 
Séruma, A,B,AB 0 
Sérum A, AB 0, B 
Serum B B, AB 

59 Phénotype Allèle A Allèle B 


(dominant) (Récessif) 


Une formulation mathématique achèvera de préciser s'il en 
était besoin, ce que nous entendons par "marqué", "neutre", " po 
sitif", et "négatif" bien que malheureusement, l'emploi de ces 
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deux derniers termes, qu'impose à peu près nécessairement la 
pratique chimique et sérologique, soit ici fort mal adaptée, 


Etant donné un ensemble fini de variables finies, supposons 
que l'on se limite à l'observation de leur produits; s'il est nul, 
nous dirons que le résultat est "positif" (!) parce qu'au moins 
l'une des variables est nulle (c'est-à-dire "marquée"), s'il ne 
l'est pas, nous dirons que le résultat est "négatif" (1!) parce 
que ceci prouve que toutes les variables sont différentes de 
zéro (c'est-à-dire toutes neutres"), 


Insistons enfin sur le fait que théoriquement on peut con— 
cevoir des cas où deux systèmes d'observations permettraient de 
faire jouer un rôle symétrique aux catégories "marquées" et 
"neutres", Par exemple, si les variables x pouvaient prendre 
exclusivement les valeurs O et 1, l'observation du produit des 
(X;=x) au lieu de celui des X;j échangerait les deux possibilités. 
En effet si le premier produit n'était pas nul, ceci implique- 
rait que tous les x sont nuls. Toutefois, dans la pratique, il 
en est rarement ainsi puisque presque toujours la dichotomie qui 
sert de base aux observations résulte en quelque sorte de l'iso— 
lement d'un point critique dâns le champ continu où vasient les 
propriétés physiques des objets, Nous n'envisagerons donc pas 
cette possibilité, qui n'est en définitive qu'un cas très parti— 
culier de cette autre plus générale, que nous discuterons plus 
loin et qui est l'existence d'une méthode d'observationpermettant 
de déterminer en une seule observation le nombre d'éléments 
marqués et "neutres" composant un lot, 


11 nous faut donc discuter les raisons pour lesquelles nous 
n'avons pas envisagé ce mode d'observation.Pour cela considérons 
de quelle manière celles-ci pourraient être effectivement réali- 
sées, Pratiquement la seule possibilité serait de mesurer d'un 
seul coup la valeur d'une certaine fonction des variables xj ca— 
ractérisant chacun des objets du lot. Le choix de cette fonction 
impliquerait donc d'abord la nécessité de se donner un type 
d'additivité,. Mais en outre il faudrait que chacune des varia- 
bles x ne fut susceptible que de prendre deux valeurs ce qui est 
une hypothèse très artificielle, car sinon l'on se trouverait 
ramené à un problème classique d'estimation de variables numé- 
riques par la donnée numérique aussi de certaines fonctions en 
ces mêmes variables, problème qui est entièrement hors de notre 

RSUHerS 

Les mêmes remarques s'appliquent également à la propriété 
annoncée dans 5° ; outre le fait qu'il est difficile de conce- 
voir un modèle statistique assez général pour couvrir une classe 
suffisamment vaste de cas où une aléatoire peut perturber les 
relations déterministes strictes # 


Un objet "marqué" équivalent à un résultat positif de l'ob- 
servation, 


Tous les objets "neutres" équivalents à un résultat négatif 
de l'observation 


il semble bien que le problème ne devienne alors le problème gé-— 
néral de la statistique mathématique dans un cas très particu- 
lier. 
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Nous nous bornerons donc à ce schéma qui est, lui aussi, 
suffisamment vraisemblable dans la plupart des situations pra 
tiques. Nous formulerons cependant pour quelques cas précis des 
résultats qui généralisent à des modèles aléatoires bien fixés, 
certains des énoncés valables pour le modèle déterministe. 


Enfin, il n'est pas inutile de souligner que plus générale 
ment, il est possible de poser un problème avec une observation 
dépendant stochastiquemænt des particularités des objets :comme 
un problème de type déterministe mais muni d'une structure plus 
compliquée de l'ensemble des objets ou, plus précisément, de 
l'ensemble des observations que l'on peut. effectuer sur eux, 
Ceci très typiquement est le cas des observations de la génétique 
mendelienne même quand on inclut dans les schémas d'observation 
le processus complexe qui consiste à croiser deux individus et à 
observer leur descendance. Puisque l'observation des phénomènes 
dans le cas limite, mais pratiquement très général, où nous nous 
sommes placés permet seulement de savoir si des individus sont 
_ ou s'ils sont ë ou . , tout croisement ultétieur permettra 
seulement de découvrir que certains qui présentaient un phéno— 
type correspondant à l'allèle dominant A, étaient en réalité hé- 
térozygotes (c'est-à-dire étaient A) Rigoureusement parlant, il 
ne sera jamais possible de, faire la preuve au sens de la logique 


formelle qu'un sujet est n mais seulem”mt de formuler une asser— 


tion statistique du type courant "il y aurait au moins x 
chances sur cent, mille, dix mille... que ces phénotypes aient 


été observés si tel ancètre avait eu le génotype 2. C'est ce qui 
se rencontre en particulier dans l'analyse des problèmes d'ex- 
clusion de paternité qui relèvent du même schéma logique et où 
la génétique peut au plus exclure un progéniteur présumé sans 
pouvoir formellement conclure en faveur d'une paternité certaine. 


En général, il faudrait remplacer les objets élémentaires, 
par des urnes pour réaliser par un artifice un modèle détermi— 
niste ayant le même comportement que le modèle aléatoire que 
l'on désire étudier. Ici, comme on s'en convraimcra sans peine, 
il ne peut s'agir que de cas d'espèces car le problème fondamen— 
talest de préciser la nature de l'additivité de caractères 
"marqué", En effet si l'on admet qu'il y a seulement une cer- 
taine probabilité pour que la réaction soit "positive" quand le 
lot contient un objet marqué, il est peu plausible de supposer 
que celle-ci soit la même quand tous les objets le sont, d'où 
l'introduction d'une expression décrivant cette probabilité en 
fonction de la composition du lot, Nous espérons que les méthodes 
générales décrites ici permettront d'aborder les cas précis où 
il serait à la fois nécessaire d'introduire cette fonction et 
possible de spécifier son expression, 


Pour en terminer avec la signification et le rôle des pro- 
babilités dans notre problème il nous faut signaler qu'on suppo- 
sera presque toujours, sinon connue à l'avance, tout au moins 
grossièrement estimée, la fréquence des objets "marqués", Comme 
dans l'analyse séquentielle de WALD avec laquelle nos problèmes 
présentent beaucoup d'analogies, c'est justement cette connais- 
sance préalable qui permet d'augmenter l'efficacité d'un système 
d'observation. Un problème typique dans ce sens est celui de 
l'estimation de la fréquence inconnue des objets marqués dans 


= LES MÉTHODES DE GROUPAGE 79 


une population infinie. Il est évident que si l'on ignore tota- 
lement son ordre de grandeur entre 1/2 et 1/106, la seule chose 
à faire est d'obtenir une estimation préalable sur un premier 
échantillon qui servira ensuite à choisir les paramètres fixant 
la deuxième série d'observations qui pourra celle-ci s'effectuer 
selon un "design" optimal, 


Reste enfin la dernière caractéristique qui se justifie 
comme les précédentes par le fait : 


- qu'elle est pratiquement réalisée dans les cas importants 


- qu'elle contient les autres possibilités en ce sens qu'un 
modèle simple du type "dépendant" peut être ramené à un 
modèle "indépendant" à structure complexe, 


— que son abandon impliquerait le choix d'une loi de dépen- 
dance qui ne saurait être que plus arbitraire encore. 


Signalons enfin parmi les problèmes analogues aux nôtres et 
justiciables sans doute de méthodes parallèles celui où au lieu 
d'objets "neutres" et "marqués" existeraient des objets disons de 
type I et de type II et où l'observation serait positive quand 
et seulement quand le lot contiendrait simultanément au moins un 
objet Ii et un objet II. Une illustration d'un tel cas pourrait 
encore être fournie par la recherche de nouveaux groupes san— 
guins quand manquent à la fois des hématies porteuses de l'ag- 
glutinogène cherché et une réserve de sérum contenant l'agglu-— 
tinine correspondante, 


LES TYPES DE PROBLÈMES 


Toujours sur le plan de la discussion intuitive, il est né- 
cessaire d'indiquer les principaux problèmes qui peuvent se po- 
ser en présence d'un système du type décrit; nous en isolerans 
quatre, relevant deux par deux de domaines différents du calcul 
des probabilités, 


Tout d'abord les deux problèmes classiques de la statisti— 
que mathématique 3 


l'estimation d'un paramètre inconnu, typiquement, la fré- 
quence des objets "marqués" dans une population infinie 


le test d'une hypothèse assignant à cette probabilité de se 
trouver dans un certain intervalle, 


Naturellement, dans ces deux cas, il ne s'agira ici que 
d'appliquer les méthodes générales connues en profitant des par- 
ticularités structurales envisagées plus haut pour diminuer à 
précision ou risque d'erreur égaux, le nombre des observations 
nécessaires, Dans certains cas on arrivera à des résultats ex- 
trêmement substantiels, 


Les deux autres problèmes par contre sont en réalité dis- 
tincts de ceux de la statistique mathématique habituelle quoi 
qu'il soit possible de les y ramener par un biais très artifi- 
ciel à vrai dire, 
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Ce sont 5: 


les problèmes de diagnostic # étant donné un ensemble fini 
d'objets, déterminer pour chacun d'eux s'il est neutre" ou 


"marqué", 


les problèmes de tri : étant donné un ensemble fini ou non, 
en extraire un nombre m. fixé à l'avance d'objets "marqués" ou 
bien n objets "neutres" ou bien encore à la fois m objets "mar— 
qués'" et n objets "neutres!", 


Un lien entre ces deux derniers exemples et les problèmes 
relevant de la statistique mathématique serait le comptage des 
objets "marqués" dans un lot fini, problème statistique si l'on 
se contente d'une réponse "en probabilité", mais problème du se— 
cond type si l'on veut une réponse catégorique, De fait, le pro— 
blème de comptage ne se pose pas parce que, comme on le verra 
plus loin, il est impossible, du fait même de la structure lo-— 
gique du modèle d'observation, de "compter" les objets "marqués" 
sans les repérer individuellement. Ce problème se résume donc 
exactement au problème de diagnostic, Cet exemple cependant fait 
apparaître assez nettement le contraste entre les deux groupes 
de problèmes qui résulte à la fois de la nature déterministe des 
observations et du caractère discontinu (dichotomique même !}) à 
la fois des grandeurs observées et des états inconnus des ob- 
jets. Il apparaît donc que les problèmes du deuxième groupe ren— 
trent plutôt dans le cadre des questions étudiées par la théorie 
de l'information. Le cas de diagnostic est d'ailleurs exactement, 
comme nous l'avons déjà dit dans la deuxième partie, une moda- 
lité particulière du problème du codage; les problèmes de tri 
sont, semble-t-il, nouveaux, 


LES TACTIQUES 


Ayant aihsi délimité les problèmes que nous aborderons, il 
nous f aut enfin dire quelques mots sur la nature des solutions 
auxquelles nous nous efforcerons d'aboutir, 


L'idéal serait de pouvoir, dans chaque cas, donner explici— 
tement l'expression de la "décision fonction" de WALD ou de la 
“stratégie minimax" au sens de VON NEUMANN qui garantit à l'ex- 
périmentateur, les meilleurs résultats pour le coût en moyenne 
le plus faible, 


De fait, la complexité combinatoire des problèmes et la né- 
cessité de rester dans certaines limites de simplicité pour les 
procédures d'expérimentation nous conduira, selon une démarche 
très fréquente d'ailleurs dans les mathématiques appliquées, à 


substituer au concept de "stratégie optimale" celui de tactique 
optimale" que nous allons définir, 


Soit un certain but à atteindre, qui est aussi bien ici le 
diagnostic ou le tri d'un ensemble d'objets que la réduction en 
dessous d'un certain niveau de la variance d'estimation ou des 
probabilités d'erreur de première ou de deuxième espèce, Nous 
symboliserons ce but par un point, 0, dans un certain espace B, 


Quel que soit le problème, une procédure est une suite, me- 
nant au but proposé,d'opérations élémentaires, dont chacune a un 
coût fixé à l'avance, La question qui se pose est celle de trou 


LES MÉTHODES DE GROUPAGE 81 


ver la ou les procédures telles que la somme correspondante des 
cofits soit minimum, 


Du point de vue qui nous intéresse nous pouvons encore 
- schématiser ceci par une feuille de chemins Ci menant de l'ori- 
gine I au but O et une fonction f (P) des points de B. Le coût 
(ou plutôt sa valeur moyenne, mais il est équivalent d'employer 
ou non un langage déterministe), correspond alors simplement à 
l'intégrale de f (P) prise le long de Ci et le problème est de 
trouver le où les chemins qui rendent celle-ci minimum, 


Les méthodes générales du calcul des variations permettent 
alors le raisonnement suivant ; supposons que pour chaque point 
P la valeur minimum h (P) de l'intégrale précédente prise de P à 
O soit connue, Les surfaces h (P) = Cte constituent une famille 
dépendant d'un paramètre (ce sont les "transversales"), et les 
chemins C optimaux en sont les trajectoires orthogonales ce qui 
permettrait de les déterminer, 


Ceci est d'ailleurs intuitif puisque le fait de suivre ces 
trajectoires orthogonales revient à rendre maximum pour chaque 
déplacement infinitésimal la décroissance du coût total corres- 
pondant au chemin qui reste à parcourir, 


La méthode reste valable quand, au lieu d'une trajectoire 
continue, on a affaire à une suite discrète de choix et nous 
avons pu montrer que dans certains cas particuliers elle présen- 
tait l'avantage de nécessiter le plus petit nombre d'opérations 
arithmétiques,. Pour l'appliquer, on part des positions voisines 
du point O et on calcule pour chacune d'elles le coût minimum 
nécessaire pour atteindre le but; puis successivement on effec— 
tue cette détermination pour toutes les positions qui sont voi-— 
sines des précédentes, puis pour celles qui sont voisines de ces 
dernières .., etc : jusqu'à ce qu'on soit remonté au point de 
départ I. 


L'économie de calcul résulte évidemment du fait que l'on a 
jamais à tenir compte pour les comparer entre eux que des che-— 
mins qui sont déjà optimaux pour leur portion qui avoisine O0 ce 
qui réduit grandement le nombre des opérations, 


Une semblable méthode a probablement été employée de façon 
implicite dans de nombreux cas et nous nous bornerons à citer 
celui du codage binaire d'un système quelconque de messages (cf. 
D. HUFFMAN — 1952 —- A method for the construction of minimum 
rédundancy codes — Symp on comm. application, London), 


Mais, en général, la détermination de la fonction h (P) en- 
traîne un travail considérable et l'on peut essayer de lui subs— 
tituer une autre fonction k (P) qui soit plus facile à calculer. 


Revenons au cas discret et relativement a un certain choix 
d'une fonction k (P) nous aurons alors ce que nous appellerons 
une tactique (optimale) d'ordre zéro # celle-ci consistera pour 
chaque point P à passer au point P' tel que la décroissance de k 
(P) soit la plus grande possible, tactique qui serait rigoureu- 
sement optimale, comme on l'a vu, si k (P) était précisément 
De (CP): 

On définirait de même des tactiques d'ordre un par le choix 


à chaque position P du point suivant P' tel qu'il permette lui-— 
même de passer en un deuxième temps à P'' avec k (P):- k (P") 
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maximum, des tactiques d'ordre deux où P' serait choisi en fonc- 
tion de k (P) - k (P#) où P'''peut être atteint à partir de P" 
..... Naturellement cette méthode serait rigoureusement optimale 
quel que soit k (P) si une tactique d'ordre assez élevé pouvait 
être utilisée. 


L'analogie de ces méthodes,qui semblent d'ailleurs appeler 
de nombreux travaux, avec la conduite effective des individus 
dans des situations telles que le jeu d'échecs, est évidentes à 
chaque position le joueur calcule le mouvement qu'il va effec-— 
tuer en fonction du gain tactique qu'il lui assurera un, deux, 
trois, ....n coups plus tard, 


Sans pouvoir insister sur cette question, que nous avons 
développée ailleurs d'un autre point de vue (A tentative classi- 
fication of goal seeking beaviours. J.of Ment.Sci.-0Octobre 1953) 
indiquons rapidement quelques exemplés d'emploi d'une tactique 
d'ordre zéro dans divers domaines, 


Problème de construction d'un circuit à contacts approxima— 
tivement le plus économique pour réaliser une fonction logique 
donnée(Cf GAVRILOV. Teoria Releinokontaktnyx cxem. Moskva 1950. 
P° 185), 


Problème des diaphonies de J,VILLE -(les (ai) étant donnés, 
il s'agit de choisir Les signes + ou — de manière à minimiser 
(Ztai) - (Cf Variables aléatoires equiparties (1949) Cables et 
transmissions — p 262-274), 


Problème de détermination de la permutation des colonnes 
d'une matrice donnée rendant maximum la somme des éléments de la 
diagonale, 


“Problème du livreur" s c'est-à-dire choix de l'itinéraire 
le plus court qui passe par ün ensemble de points dont les dis-— 
tances mutuelles sont connues, 


Enfin il semble que dans le domaine des calculs numériques 
de nombreuses méthodes d'itération reposent aussi sur le même 
principe que l'on pourrait appeler d'optimalité locale. 


Certaines fonctions k (P) correspondent à ce que serait ef— 
fectivement une stratétie optimale au sens strict si les para- 
mètres caractéristiques du problème étaient choisis au fur et à 
mesure par un adversaire tel que le définit la théorie des jeux, 
au lieu d'être donnés à l'avance, 


Ainsi, dans le problème classique généralisé des courbes 
de poursuite, la tactique d'ordre zéro est basée sur la fonction 
k (P) qui est simplement la distance du poursuivant à l'objectif 
et elle consiste à choisir une trajectoire dont la tangente 
passe à chaque instant par l'objectif. Cette tactique serait op- 
timale si celui-ci, dépourvu d'inertie, voyait sa position sou— 
mise à des fluctuations aléatoires et indépendantes, La tactique 
d'ordre un tiendrait compte de l'existence de l'inertie et in 
terprèterait les mouvements de l'objectif comme résultant d'une 
chaîne de MARKOV d'ordre un elle aussi ,... etc ... 


En définitive, le problème se trouve ramené au choix de la 
fonction k (P); mises à part des propriétés qualitatives assez 
peu caractéristiques s (par exemple k (0) = 0), nous.ne savons 
pour ainsi dire rien à ce sujet dans le cas général puisque le 
critère essentiel qui conduit à préférer k (P) à h (0) est celui 


> 
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de la simplicité du calcul, qu'il est difficile d'expliciter en 
dehors des cas particuliers. Notons cependant qu'on a employé 
souvent,de manière implicite d'ailleurs, la méthode qui consiste 
à remplacer h (P) par une fonction simple qui lui soit équiva— 
lente dans certains cas où les paramètres du problème ont des 
valeurs particulières, correspondant le plus souvent à des cas 
extrémaux, 


Revenons à notre problème après cette longue parenthèse, 
Pour les mêmes raisons de simplicité qui nous ont guidé dans le 
choix des hypothèses, nous prendrons pour coût le nombre moyen 
d'observations élémentaires effectuées quel que soit le nombre 
des objets sur lesquelles elles portent, Nous pouvons déjà indi-— 
quer que pour chaque type de problème considéré, les fonctions 
k (P) seront les informations appropriées : en effet d'après ce 
que nous avons vu dans la deuxième partie, celles-ci sont sus 
ceptibles d'être calculées simplement et pour certaines valeurs, 
des paramètres elles coïncident avec les fonctions h (P) en 
vertu des theorèmes d'optimalité. De plus grâce à ses mêmes 
théorèmes limitatifs on sera souvent en mesure de prouver que 
les tactiques d'ordre zéro conduisent dans l'ensemble à des ré- 
sultats qui ne s'écartent pas trop des résultats strictement op- 
timaux, 


Il. - PROPRIÉTÉS GÉNÉRALES DU MODÈLE 


DÉFINITIONS ET NOTATIONS 


L'ensemble (fini ou infini) des objets sera désigné par E 
et lés objets eux-mêmes par a, b, c ..... ou bien selon les cas 
PAT 4, 9 4pyg oo. a » 


Le fait qu'un objet "a" soit à l'état marqué (respective- 
ment neutre) sera noté par at (respectivement : a), 


Nous désignerons par A æ (a, b, © .....) 


B = (x,=y, z...) ou bien Aj les ensembles d'objets susceptibles 
d'une observation élémentaire permettant de savoir s'ils sont 
tous "neutres" ou si l'un deux au moins est ‘''marqué",. 


Ainsi A désignera à la fois un ensemble (a, b,...) et l'ob- 
servation élémentaire portant sur A. Le plus souvent, tous les 
sous-ensembles de E seront susceptibles d'être observés; dans 
d'autres cas, certains seulement qui seront dits "admissibles", 
Par exemple en génétique mendelienne, les ensembles admissibles 
sont certaines paires d'allèles, celles appartenant à un indivi-— 
du de l'échantillon dont elles constituent le génotype. Il sera 
commode d'utiliser la notation AM) pour désigner un ensemble 
quelconque formé de n objets et on dira qu'un ensemble A est 
"libre" si aucun des objets qui y figure n'a encore appartenu à 
un ensemble observé, Enfin, l'évènement constitué par le fait 
que l'observation de À a donné un résultat positif (respective- 
ment : négatif) sera simplement écrit At (respectivement A7). 

Pour tout objet a, b, c ou xj la probabilité qu'il soit à 
l'état marqué sera représentée par la lettre grecque corres-— 
pondante sauf, pour des raisons typographiques évidentes,dans 
le cas où toutes ces probabilités élémentaires ayant la même va-— 
leur commune celle-ci sera notée par p = 1 —- q. 
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LES TREILLIS DES POSITIONS 


Après ces définitions, nous pouvons passer à l'étude des 
principales propriétés mathématiques du modèle et tout d'abord 
au calcul de la probabilité du résultat d'une observation X quand 
on connaît déjà les résultats d'un système @ d'observations A,B.. 


Pour cette étude, le résultat suivant est essentiel. 


Théorème I = Etant donné un système d'observations, 
A, B ... C ayant porté sur les objets d'un ensemble E, les 
résultats de celles-ci sont décrits intégralement par les 
données 3 


19 - D'un élément ‘du treillis distributif libre T dont 
les générateurs sont les objets de E, 


29 — D'un sous-ensemble A de E, Œ*et A ne contenant aucun 
objet en commun, 


Considérons en effet d'abord l'ensemble de toutes les ob- 
servations de qui ont donné un résultat négatif. D'après les 
propriétés déterministes du modèle, un objet ne figure dans une 
observation dedque s'il est à l'état "neutre", Réciproquement 
si tous les objets x, y, z...sont à l'état "neutre!" toute obser- 
vation sur un sous-ensemble d'entre eux donne un résultat néga- 
tif. Par conséquent, a posteriori, Ü est équivalent à une seule 
observation élémentaire A7 ayant donné un résultat négatif. 


Toujours en raison du caractère déterministe du modèle, si 
l'observation X = ( a b cc...) a donné un résultat positif, elle 
est a posteriori équivalente à l'observation X' = (a b c ...) où 
X' se déduit de X par suppression des objets appartenant à A 


Nous pouvons donc réduireUà À et à(l'tels qu'aucun objet ne 


figure à la fois dans À et dans une observation de l'ensemble 
d'observations Œ, 


Pour achever la démonstration, il nous suffit maintenant de 
montrer que si'contient deux observations A et B telles que 
l'ensemble A soit un sous-ensemble de B on peut sans rien chan- 
ger supprimer B deCl*, 


Mais ceci est évident, puisque le fait que A soit positif 
entraîne qu'il contient au moins un objet "marqué" et, par con— 
séquent que toute observation portant sur un ensemble contenant 
A est positive et ne saurait rien apprendre de plus sur aucun ob 
jet si elle est effectuée après A. 


Par une extension bien naturelle d'une terminologie intro-— 
duite par Monsieur le Professeur G,. DARMOIS, on pourrait dire 
que, dans notre modèle, le résultat positif de l'observation 
d'un sous-ensemble (et non pas l'ensemble des résultats comme en 
général en statistique) est un résumé exhaustif du résultat de 
l'observation d'un ensemble, 


Une conséquence immédiate de ce résultat est que si l'ob- 
servation B ou B est un sous-ensemble de A,est effectuée après 
À ,; les objets de A-B redeviennent des objets libres c'est-à-dire 


que l'on ne Sait rien de plus sur eux que si A n'avait jamais 
été faite, 
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: Appelons "position" d'un observateur le couple (4*A7 qui 
résume les résultats qu'il a déjà obtenus, D'après ce que nous 
venons de dire, l'ensemble de ces positions constitue un treil= 


lis Tk; (le treillis de position) si l'on introduit un ordre "<" 


gouverné par les conventions suivantes 
19 —- (@+tAT) < ( &''+ A'7) si et seulement side 4*dans Te 


et À A! dans le treillis booléen des parties de E. 


l 


2° — Il existe une position (9) antérieure à toutes les au- 
tres s; c'est celle de l'observateur avant toute obser- 
vation, 


39 — Il1 existe une position (purement virtuelle d'ailleurs) 
qui est celle d'un observateur qui aurait obtenu des 
résuitats contradictoires (par exemple At et B7 si A 
était un sous-ensemble de B). 


La relation d'ordre "antérieur à" dans T, coïncide avec 
l'ordre temporel, physique, des observations, 


Enfin, il est important de noter que si E'CE et si tous 
les objets figurant dans A" et UY*A'7 appartiennent à E*, la 
relation Œ* A7 <(W+ A'7 dans Tk est équivalente à la même as- 
sertion dans TE". 


A titre d'exemple, nous allons montrer comment la dissymé- 
trie des états "marqués'"et "neutres" entraîne qu'un résultat po- 


sitif apporte moins de renseignements qu'un résultat négatif, 


Plus exactement 3 


soit Œ= Œ+ A7 la position d'un observateur avant qu'il 
effectue l'observation élémentaire X. Soit &'* A7 sa position 
si X : ŒVA"= HR Sa position si X 5; enfin B' B7 , sa position 
s'il apprenait que tous les objets de X sont à l'état marqué (ce 
que l'on peut noter X**), 

C'est-à-dire que B* B- peut s'écrire BY“ X** B- où le mot 
B'* ne contient aucun des objets de X . On a : 


Dans Te : COAONIRRL EME TE 
e + = 
Dans TE y B « 
ce qui signifie donc que mis à part les objets de X , X* conduit 
à une position antérieure à celle qui résulte de X°. 


En effet : 


19 — A7 est la réunion de A7 et de X7 et &*T est obtenue à 
partir de + en y eïfacant purement et simplement les 
lettres qui symbolisent les objets de X. 


20 — A” et B- sont identiques à B ce qui établit la pre- 
mière relation puisque B*est la réunion de A’* et de 
. xt+ x 


39 — La deuxième relation découle de ce que A'est la réu- 
nion de B’* avec ce qui reste des monomes ded*après ef- 
facement des objets de X . 
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Il est intéressant à ce stade de notre discussion de dire 
un mot des affaiblissements du théorème I qu'impliquerait le 
remplacement du modèle déterministe par certains modèles aléa— 
toires. Nous considèrerons successivement les deux possibilités 
limites qui se traduisent par une liaison stochastique au lieu 
d'une implication formelle pour l'hypothèse : 


I° — au moins ün objet marqué entraîne un résultat positif 
2° — tous les objets "neutres"entraînent un résultat négatif 


Dans le premier cas, le théorème I sé réduit, d'une part à 
la simple possibilité de "résumer" une série d'observations sur 
un seul objet par une observation quand au moins une fois un ré— 
sultat positif a été obtenu. D'autre part, il reste encore la 
faculté de négliger l'observation d'un lot d'objets quand tous 
les objets testés individuellement ont fourni un résultat posi— 
CAES 


En effet soit r le paramètre Pr (A*lat) où À est l'observa- 
tion de l'ensemble A réduit à a et soit pnla probabilité que la 
nième observation du mème objet a donné un résultat négatif 
quand les n-1 premières ont été négatives aussi, on a : 


HALL Er) Arles (@&= Pr ( at})) 


Par conséquent, sur le plan opérationnel où nous nous pla- 


n 


çons c'est-à-dire même sidtet r sont connus (et a fortiori si «à. 


est inconnu) chaque observation négative nouvelle de a apporte 
un changement sur la probabilité des résultats d'une autre ob- 
servation ultérieure. 


Au contraire, en vertu du déterminisme (unilatéral) que 
nous avons supposé conservé il est clair que A* B* C* entraîne 
‘(A + B + C,(..)* avec une certaine probabilité r' qui ne dépend 
que de la structure stochastique du modèle à condition que A B C 
+... Soient des objets et non roupes d'objets puisque par 
exemple la connaissance de A* et (B+C) n'est pas équivalente à 
celle de At ; (B + C)* et (A +B +C}) pour prévoir le résule 
tat de l'observation C 


De façon duale, dans le deuxième cas, seule subskste la 
première partie du théorème I, c'est-à-dire que l'on peut seule- 
ment remplacer par une observation unique portant sur un cer — 
tain ensemble A , 


Montrons pour finir que dans le modèle déterministe le 
comptage du nombre des objets marqués d'un ensemble E implique 
le diagnostic de tous les objets, 


Soit en effet CAla position d'un observateur sachant que E 
contient n objets marqués et m neutres. 


Par hypothèse AT est équivalent à une observation élémen- 
taire AM ayant donné un résultat négatif et garantissant donc le 
caractère neutre des m objets qui y figurent. 


D'autre part L'est équivalent à un système d'observations 
positives et ne peut que fixer une limite inférieure au nombre n 
d'objets marqués à moins que toutes les opérations élémentaires 
qui le composent n'aient porté que sur un seul objet, 
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LES PROBABILITÉS DES POSITIONS 


Nous sommes maintenant en mesure de calculer les probabi- 
lités qui nous intéressent. Nous désignerons par Pr(X[A*A) la 
probabilité que l'observation élémentaire X donne un résultat 
positif quand on a déjà obtenu les résultats résumés par le 
couple Œtet A, 


D'après la théorie des probabilités composées on a ! 
Pre (XGA) x Pr (0? À) = Pr. (x! «) 


Comme l'ensembleX* Atest aussi un mot Xtde T, le problème 
est donc ramené au calcul des Pr ( A) c'est-à-dire au calcul 
des Pr (@*) piisque le fait que X*tet An'aient pas d'éléments 
communs entraîne ; 6 


Pr Gt: A): = Pr. (-Q* ): x Pr (A°) 


Le calcul de Pr (A7) est immédiat : 
Pr (An)E= (12) = B)"(1-").:.. (16) 
St a, D, C....-Xé A. 


Pour calculer les Pr ((Œ*) on dispose du théorème suivant : 


Théorème II - Les probabilités Pr (Q*) sont une valua- 
tion du treillis TE. 


Le théorème n'est encore une fois que la transcription en 
langage des treillis des notions fondamentales du calcul des 
probabilités, Toutefois cette transcription nous permet d'obte- 
nir directement les résultats pratiques suivants qui découlent 
de la possibilité de calculer les valuations de tous les mots à 
partir de la seule donnée des valuations des éléments , et + ir- 
réductibles du treillis Tk. 


Ilère méthode : 


Soit &t= 7 Aî une représentation réduite de Wen les ob- 
servations élémentaires A; (i6l) qui sont les éléments + irréduc- 
tibles du treillis, 

D'après les méthodes générales de la théorie des évènements 


compatibles et dépendants ou - ce qui revient au même — d'après 
les méthodes de la théorie des valuations dans les treillis dis-— 


tributifs on a : 
Pr (U*) = jà Pr (A;*) - À, Pr(A AÏ) +;#pPr (AïAi Ai) + .. 


, 


ce que l'on peut encore, formuler de la façon suivante : 


Corollaire I — Pour chaque sous-ensemble I' de puissance n 
de I soit B; l'observation élémentaire portant sur les objets 
qui appartiennent au moins à l'un des A; (iel'),on a : 


Pr (@*) = (-1)" Pr (Bi ) où la sommation est étendue à tous les 


sous-ensembles I' de I, 
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Chacun des B; étant équivalent à une observation élémentaire 
on a enfin # 


PEN CBt)E= = Pre (La) (li ep). (F8) 


SPA D ere: X C7By 


2ème méthode 


. 2 é + . 
Nous partons maintenant de la représentation del comme in— 
tersection des mots irréductibles, 


Soit Cj (j6j) les ensembles minimaux d'objets tels que (0 E3 
ne sont possibles que si tous les objets de l'un des C sont à 
l'état marqué ce que nous noterons par (Cj)‘. En langage de 
probabilité on a donc +: 


Pr (CU*) = Pr (Ci ou c2 00, et) 


d'où : 


Pr (@*) =% Pr ci 2, Pr(ci cir) + 


De manière formelle les ensembles Cj seront obtenus simple-— 
ment en permutant dans l'expression de X*les opérations . et+ 
puis, grâce à la loi distributive, en développant en somme de 
monomes ces derniers étant précisément les Ci. 


La formule précédente s'énonce alors de manière rigoureuse: 


Corollaire II — Pour chaque sous-ensemble de puissance n, 
J'® de J soit Cj, l'ensemble des objets qui figurent dans au moins 
RG SC) EU); tonra ts 


Pr ( d}= 2m PER (G;rtE) 


où la sommation est étendue à tous les sous-ensemhles J' de J. 


Enfin si a, b ..... x(Gj , on a par définition : 


Pr (Gr tt}, PF (an Di NX IE NA MRRSE 


Exemple : soit E = (abcd) et soient les observations élé- 
mentaires À = (a,b,c})}' B = (a,d)t C = (b,a)t 


Nous représent erons simplement le fait que A'B*C‘par le mot 
abc + ad + bd et nous avons, d'après le corollaire I s[Pr (A*B* 
C*) = Pr (abc + ad + bd) = Pr (abc) + Pr (ad) + Pr (bd) -Pr (abd) 
- Pr (abcd). 


Donc Pr (A*B*C') = 1 - afy-a5-106+ap6+apy6 
en posant = 1 -£= probabilité que x soit neutre, 
De même en employant le corollaire II : 
Les combinaisons minimales d'objets "marqués" qui garantis-— 


e 


G 2 
sent que A" B*C*sont, comme on le calcule sans peine : 


(a et b) ; (a et à) 


CT 


(b et d);(c et d). On a donc : 


A = ab ; ASS ad ÿ A3= bd ; A,= cd ; et finalement : 
Pr (ATBTC) = Br a 8 + B5+Y5-24P6-ay6-ByS+a0YS 
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à 


valeur qui est bien égale à celle trouvée à l'aide du corol-— 
laire I, 


3ème méthode, 


Les deux méthodes précédentes conduisent à des expressions 
contenant des signes négatifs. La théorie des évènements compa— 
tibles et dépendants nous livre une troisième représentation qui 
ne présente pas cet inconvénient éventuel, 


Considérons en effet les évènements Dj ("les diagnostics 
complets") consistant en le fait qu'est connu l'état de chacun 
des N objets de l'ensemble étudié E. La probabilité de l'un 
quelconque de ces 2N évènements est de la forme : 


Pr(Dj ) =&@,,... (1=-tj) (1-xj') 


et tout (X* pouvant être représenté de manière unique comme somme 
logique de ces évènements incompatibles , il s'en déduit bien 
l'expression cherchée, 


On obtient ainsi pour l'exemple précédent 5: 


Pr (A B'C) sa@Py5+a@By5+ap75+apYB+aBys+af5+aPye+ 2Py6+aPys 


LE CAS DES PROBABILITÉS ÉLÉMENTAIRES ÉGALES 


Dans la suite, nous étudierons surtout le cas particulier 
correspondant à une probabilité d'être marqué p égale pour tous 
les objets, 


A chaque mot @ correspond alors un polynome P(p) = Pr(*) 
prenant ses valeurs dans (0,1), 


Les propriétés suivantes quoique très simples méritent d' é- 
tre relevées, 

1° - P(p) est une fonction croissante de p (plus générale- 
ment Pr((*}) est fonction croissante desæi), 


29 — P(p) admet la racine p = O ayec un ordre de multipli- 
cité égale au nombre minimum n, d'objets dont le caractère mar- 
qué assure que@‘'est réalisé, 


En effet, d'après le corollaire II1,Pr (+) est une somme 
de monomes en lesæi correspondant chacun à un ensemble C;,d'ob- 
jets tous marqués et les ensembles minimaux de cette Famille sont 
les Cj eux-mêmes, Le coefficient du terme pest donc en outre 
le nombre de ces Cj de puissance n,. 


39 = 1-P(p) admet la racine p = 1 avec un ordre égal au mi- 
nimum de la puissance des observations élémentaires qui consti- 
tuentat, 


Ceci est immédiat d'après le corollaire IL . 
49 — P(p) est d'ordre au plus égal au nombre n des objets 


qui figurent dans &*,. Cet ordre s'abaisse chaque fois que n 
étant pair (f est un mot identique à son dua1,* 


l 
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Considérons en effet U'et l'évènement daéfini par le fait 
que pour qu'aucun des © l'on a (c ) . La double implication 5 


d'entraîne non à et entraîne non @* 


permet d'écrire # 
Pr (&*) = 1 = Pr (®%°) 


Mais comme Pr(&) est équivalente d'après les corollaires I 
et II à Pr ( &t) où l'on aurait remplacé lés jpar les j, nous 
pouvons écrire siWt=@+, Prü(p) + Pr&(q) = 1 et le coefficient 
du terme de plus haut degré doit bien être nul si ce degré est 
pair. 


Enfin, pour les cas où des dispositifs expérimentaux parti — 
culiers (circuits électriques par exemple)permettraient de réali- 
ser de façon relativement aisée certains mots complexes, nous 
rappellerons le résultat suivant bien connu en théorie des 
Ere LT SE: 

La condition nécessaire et suffisante pour que E contienne 
au moins h objets marqués est que l'on ait} ou à} désigne le mot 
symétrique> A(N-h+ti) avec la sommation teidue à toutes les 
combinaisons (N-h+1) à (N-h+1) des N objets de E, 


En effet lé calcul montre que le dual de@4 est précisément 
ŒN-h+1, D'après la troisième méthode de calcul, les fonctions 
correspondantes sont 3 : 


N-hrN- 
h+i 
P RP [h+i] P N-h=i 
h (bp) < (1-p) 
La fonction Ph(p) a la propriété remarquable de présenter 
un point d'inflexion unique pour p = (h-1}) / (N=1) comme on peut 


le vérifier par le calcul direct, Quand N et h tendent vers l'in- 
fini de telle manière que (h-1) / (N-1) et (N-h) / (N-1) aient 
des limites finies, Ph(p) tend vers une fonction de saut en ce 
point ce qui d'ailleurs est intuitif. 


II. - PROBLÈMES DE DIAGNOSTIC 


GÉNÉRALITÉS 


Dans ces problèmes, il s'agit, comme on l'a vu, de déter-— 
miner celui qui s'est réalisé des évènements incompatibles D; 
consistant en le fait que tous les objets de E ont un état aonné 


Nous désignerons par une procédure, c'est-à-dire une suite 
déterminée d'observations à effectuer en fonction des résultats 
des observations antérieures; c'est-à-dire, encore, formellement 
un arbre à chaque point de ramification duquel est attaché le 
sous-ensemble X de E qui doit être observé, 


Lesai étant donnés, nous désignerons par L ({}) la somme 
ZPr(0j)X(Dj)' étendue à tous les Dj postérieurs à (c'est-à-dire 
auxquels on peut encore aboutir quand on est en position) et 
où X(Dj) désigne le nombre d'observations élémentaires condui= 
sant deWà D;, en suivant la procédure K, 
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Ainsi, par exemple,L (@) est le coût total moyen de la pro- 
cédure et inversement L (Dj) = O0 pour tout D;par hypothèse, 


Si X prescrit l'observation élémentaire X quand on est en, 
on a la relation : 


L (4) = Pr (WU) +1 (UAX*) + L ( AUX”) ce qui montre que L 
est une fonction décroissante sur le treillis de position, 


Théorème : Une condition nécessaire pour queKsoit op- 
timale est que l'on ait quelque soit © # 


L'AGOXD) SEL UE x), 


Supposons en effet que pour un certain (l cette condition ne 
soit pas vérifiée. Pour la partie de la procédure qui concerne 
les observations postérieures à XX ; remplaçons les observa- 
tions prescrites par celles que prescrit Nquand Œ&x'. D' après 
ce qui a été vu dans le chapitre précédent sur la dissymé- 
trie des résultats qu'entraîfnent respectivement les résultats X* 
et X7 on aura en appelant KW' la procédure ainsi modifiée # 


LOT STE CUT) EL CUX SR) 


Donc K' est uniformément préférable àN, 


On en déduit la conséquence importante suivante 5 


Une condition nécessaire pour que soit optimale est que À 

A(D5) <A(D;) pour toutü= @ et pour toute paire Dj,Dj', où le se- 

cond diagnostic ne diffère du premier que par remplacement de 

l'état neutre par l'état marqué pour certains objets, Dans ces 
conditions L (9) est une fonction croissante de chacun desai, 


En effet N' étant un arbre, il existe pour toute semblable 
paire Di, Dj! une positionUjet une observation X telles que D; 
soit postérieur à@;X et Dj à EXO I1 en résulte la première 
partie de l'énoncé puisque est hoc optimale, D'autre part, 
dans la somme s# 


L (9) =>3Pr (Di) X(D;), 


et relativement à chacun des ai, on peut URI les paires D; 
Dj' telles que dans Dj on ait ajet dans Dj a*i, les états des au- 
tres objets étant les mêmes, 


I1 en résulte la deuxième partie de l'énoncé puisque les Fr 
(D;) sont des fonctions linéaires en chacun des œ&i,. 


Représentation des procédures. 
I1 nous faut maintenant donner une représentation commode 
des procédures. 


CARSIASTORS les trois schémas suivants : 


LAS ANS vs ue 


HAN nr De 


où un trait descendant à gauche (respectivement, à droite) signi- 
fie que l'observation élémentaire dont ils partent a fourni un 


LS 
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résultat négatif (respectivement positif). Ainsi la seconde pro- 
cédure consiste en les étapes suivantes 3 


19 — Observer a et b ensemble. 


Si le résultat est négatif c'est que a= et b 


Si le résultat est positif : on passe à : 


2° —- Observer a 


Si le résultat est négatif c'est que a et b* 
Si le résultat est positif : on passe à : 


39 — Observer b ce qui conduit finalement à l'un des deux 
diagnostics at b- ou at b+. 


Dans les problèmes que nous traiterons, il apparaîtra qu'un 
diagnostic complet est presque toujours obtenu quand deux résul- 
tats négatifs ont été observés. Pour des raisons de commodité 
typographique, nous utiliserons cette particularité pour noter 
une procédure quelconque de la façon suivante 3 


Les ensembles constituant les observations élémentaires 
successives sont écrits de gauche à droite et celles-ci doivent 
être effectuées dans cet ordre quand la précédente a donné un 
résultat positif. Quand il est nécessaire d'effectuer encore des 
observations après un résultat négatif, la séquence correspon-— 
dante complète est notée entre parenthèses immédiatement après 
l'observation en cause, 


Par exemple, la première procédure du tableau précédent 
s'écrirait s: a, (b), b et la seconde ab, a, b, 


CAS D’UN PETIT NOMBRE D’OBJETS 


Etudions d'abord le cas de n = 2, Les schémas donnés plus 
haut correspondent évidemment aux seules procédures possibles et 
les fonctions de coût sont : 


ENS 12 
DELIS= LixiPr(a D" )'+ 2:x-Pr(ab"}) +:2xPr (at) =:1 + 24+ 80-08 
PRIE 1 + 20 + B=aof 

11 convient donc si l'on n'adopte pas I de choisir Ilou III 
selon queïest plus petit ou plus grand que 

On aura alors (en supposanta<f) : 
1+20+ Ê -ai<2; équivalent aX<B<1-2@/ l-ace qui montre 


que le groupage n'est efficace que si l'umau moins des deux 
probabilités est inférieure à 3-V5 / 2 = 0.381966... 


Nous ferons désormais l'hypothèse que &œi = p pour tout i. 
Pour trois objets déjà, il devient nécessaire de procéder 


selon une méthode rigoureuse, si l'on veut aboutir, sans trop 
de difficultés au résultat. Conformément aux idées que nous 


a 
has, 
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avons développées dans le premier chapitre, nous avons fait usa- 
ge d'une méthode récurrente qui consiste à calculer la fonction 
minimale L (@) pour toutes les positions en partant des posi= 
tions terminales c'est-à-dire en étudiant d'abord la procédure à 
partir de 
( (ab}* (ac)*) puis de (ab)‘ puis de (abc)*‘puis de 4. 
On obtient ainsi sept procédures dont la fonction n'est 
minorée par aucune autre. Ce sont : 
lab ab; ac DC, La, D, cC 
Lr = 1 + 6 p + 3 p? - 3 pi 
11" Abc; a; (b, ce) be;-b;"c 
Lr = l1+7p-4p? + pà 
File bcéas bo) bac): ic. 
Lm=1+8p-7p? + 2 p3 
FIVE ab,.c) ac;rbe, a;cb;1e 
Lwy = 2 + p + 7 p? —- 4 pè 
Vi=-hab (che armt(chibc bc: 
Lye<t28r 20p1+.2"p2 F p° 
VI — ab, (c)s a,+Kcds4b; (ce), Ce 
Lu = 2 + 3 p - p? 
Vil —- Observation objet par objet 
Lym = 3 
Le calcul montre que les procédures suivantes sont seules à 
retenir 


1 pour Og&p<1/8 (7 -V35) = 0.15628 .. avec un coût toujours in- 
férieur à 2,004 .. dans cet intervalle 


11 pour 1/8 (7 -V35)< p£&2 -V2 = 0.29289 .,. (coût inférieur à 


26122240) 
\ 
v 2-V2<p<1/2 (35) = 0.38187 .. (coût inférieur. à 3) 
VII 1/2.(3 -V5)<p coût toujours égal à 3, 


Pour quatre objets la même technique conduit aux procédures 
suivantes, (Nous ne donnons ici que les résultats définitifs). 


M /abed, ab,.(c, d)'acd, bcd,fc;*(4;'b;"d) a d'“bd;*a,fb;/d: 

Li = 1 + 10 + pr 2,p-:3p°i(à utiliser.pour,p< 1/8 (7-V35) 
11 - abcd;-ab, (c,d)ua;+(cd, c,;sd)bcd;:by" (c;d)-cd;e,d 

Er = 1 + I1/p — 5 p°.+ p° (à utiliser pour 


1/8 (7-V35) <p £p; = 0.21385 ..….) 
(p, = racine de 1- 6x +7 x°- 4 x°+ x‘= 0 
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III = ab (cd,c,d), a, (cd,c,d,)bed, b(c,d) cd, c, d 


Lm =2+5p+2 p2= 3 p°+ p+ (à utiliser pour m<p<2-V2) 


EVi—rabulcd,cd,) cd, (&,b).a; (c,d) c,(b)bd,=5;d. 


Ly =2+6p- 3 pÎ+ 3 p°- p{ (à utiliser pour 
e-V2 < p < 1/2 (3 -Vs) 


V — observation objet par objet 3 
Ly = 4 (à utiliser pour p>1/2 (3 - V5) 


On obtient donc déjà ici un gain assez important dès que p 
est faible puisque par exemple si p = 0.10 on économise à peu 
près 50 % du nombre des observations en utilisant I au lieu de X 


11 est à remarquer que certaines positions (par exemple 
(abc)‘)ne sont jamais atteintes si l'on suit une procédure op 
timale, 


Nous arrêterons là la discussion de ces procédures, 


En effet, si l'on veut bien se souvenir que le treillis 
libre a cinq générateurs à 7581 éléments, on comprendra que la 
méthode d'exhaustion que nous avons suivie dévient inapplicable, 
I1 paraît sûr que de nombreuses règles combinatoires pourraient 
être trouvées qui faciliteraient ces recherches, Nous comptons 
revenir ultérieurement sur cette question qui peut présenter un 
certain intérêt théorique, 


EMPLOI DE L'INFORMATION DE SHANNON WIENER 


Par définition, l'information de SHANNON WIENER associée à 
la position@West nulle quand et seulement quand plus rien d'alé-— 
atoire ne reste dans le processus éventuel d'observations c'est 
à-dire quand cette position est un diagnostic complet. Les au- 
tres propriétés que nous avons étudiées plus en détail dans la 
première partie confirment encore dans cette idée que l'informa- 
tion de SHANNON WIENER peut être une approximation raisonnable 
de la fonction L (Æ)qui décrirait le nombre moyen minimum d'ob- 
servations restant à éffectuer et qui, par conséquent, permet 
trait de choisir à chaque position l'observation x optimale, 
Nous utiliserons donc cette information pour construire des tac— 
tiques d'ordre zéro, 


Avant toute observation, l'information que nous avons sur 
un objet a; est par définition # 


oi Log,ai + (1 -ai) Log, (1 -œi) = Hi 
et pour l'ensemble des N objets qu'il nous faut diagnostiquer 5 


ZHi puisque ces objets sont indépendants. Enfin on a : 


H = N (p Log:p + (1 - p) Log, (1 - p)) 
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si l'on suppose, comme nous le ferons désormais toujours que 
toutes les probabilités élémentaires sont égales à p. 


- La première observation peut porter sur un lot À de n ob- 
jets et le gain moyen d'information qui lui est attaché est égal 


(Pr A* Log: Pr A + Pr A Log, Pr (A°) 
soit ( 1-q") Log, (1 = q) + q" Log, q" 


En vertu du caractère monotone de cette fonction de n il 
revient au même pour fixer la première observation optimale se-— 
lon la tactique d'ordre zéro de rechercher n tel que q" soit le 
plus voisin possible de 1/2, c'est-à-dire de prendre 
ño Er Hisyloù la notation[x] signifie l'entier le plus voisin 
de x. On en déduit le tableau suivant qui donne pour les pre- 
mières valeurs de n les valeurs critiques pour lesquelles sont 
les mêmes valeurs absolues de la différence entre la valeur Op— 
timale vraie Log. 2/Log et celles correspondant aux deux en- 
tiers n et n + 1. 


Ces valeurs sont les racines de l'équation q"+q'tiz 1] 


n 
1 5 9 

0.312 0.118 0.070 
2 6 10 

0.245 0.101 0.064 
3 7 11 

0.181 0.088 0.059 
4 8 12 

0.143 0,079 
5 9 


On pourra comparer ce tableau aux résultats antérieurs et 
vérifier que l'écart est faible entre ces solutions approchées et 
les procédures optimales, 


La deuxième observation consiste alors, si un résultat po= 
sitif a été obtenu, à observer un lot B formé de n objets de 
tellé sorte que 


+ + 
Pr(B*|At) = Le ( FT soit le plus voisin possible de 1/2. 


11 faudrait donc trouver les valeurs critiques correspon— 
dantes aux solutions de 


q” + ne = FE ie = 1/2 (1-q") pour n fixé par l'équation précé 


dente, 


On aurait ensuite à chosir (si le résultat était encore 
positif) n'' objets nouveaux, m' objets appartenant au lot qui à 
servi à la première observation m"" appartenant au lot de la 
deuxième observation, m''' appartenant à la fois aux deux .... 
et l'on serait ramené dès les premières observations a un pro— 
blème pratiquement aussi compliqué que celui de la détermination 
des procédures rigoureusement optimales, 
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Nous restreindrons donc le champ des tactiques admissibles 
à ce que nous appellerons les "tactiques simples", 


Par définition, une "tactique simple" sera une tactique 
dans laquelle seront considérés comme admissibles 3 


oit des observations ortant sur un lot d'objets dont on 


s 
ne connaît rien d'autre que leur robabilité a riori (objets 
Mlibres"),. 


soit des observations portant sur un sous-ensemble d'un lot 
ayant déjà donné un résultat positif. 


Ces deux conditions sont bien compatibles puisque si B est 
un sous-ensemble de Aet si on a obtenu successivement A* et B', 
on ne sait rien de plus sur les objets de A-B que si aucune ob- 
servation n'avait été faite sur eux; à 


Par conséquent, toute position dans le domaine des tactiques 
simples est résumé par : 


19 — l'ensemble des objets sur lesquels l'on ne sait rien. 
29 — l'ensemble des objets que l'on sait être "neutres", 


39 — une famille d'ensembles disjoints contenant chacun au 
moins un objet "marqué", 


Nous n'insisterons pas sur les avantages pratiques de ces 
tactiques tels que la diminution du risque des erreurs que pour— 
rait faire craindre l'emploi de schémas opératoires trop compli-— 

z 
quêése. 


-Nous sommes donc amenés à choisir m objets formant le lot B 
dans le lot initial À de n objets de telle sorte que : 


+. 
Pr B 1e=54° 
DUAL armee 


soit le plus voisin de 1/2. 


Par un développement en série, on obtient la valeur appro- 
Chée m =/n/2 — pr’ #.... 


L +8 Zen 
L'évaluation précise du coût de cette tactique est un pro- 
blème combinatoire assez compliqué et nous nous bornerons à don— 
ner une limite supérieure d'ailleurs très satisfaisante, 


Chaque observation élémentaire est d'autant moins bonne que 
les probabilités correspondantes s'éloignent plus de 1/2; nous 
‘allons montrer que le pire cas est celui d'un lot de trois ob- 
jets ayant donné un résultat positif et où les probabilités sont 
pourtant sûrement comprises entre 1/3 et 2/3. 


En effet, un lot de n objets n'a donné un résultat que si 
on l'a testé et par conséquent que si p est inférieur à la va— 
leur donnée par la table I, 


Mais alors, pour n = 2, la probabilité conditionnelle que 
l'un de ces objets soit positif quand le lot a donné un résultat 
est évidemment plus grande que 1/2 mais inférieure à 


Nos 
1 — q? 


mails of 
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Pour n>3 le choix de m = (n/2) objets assure déjà que la 
18 
11= 
maximum ne peut que décroître avec n, 


4 "4 m 
probabilité du résultat est de qn <2/3 et pour n>4 cet écart 


Par conséquent, le gain moyen d'information par observation 

est donc toujours plus grand que : 
L LT 
D CCR 


alors que le maximum théorique est 1,000. 


Log, 2/3 = 0.9128 ... 


Dès que le nombre N d'objets à diagnostiquer est suffisam- 
ment grand, il en résulte que l'on aurait en moyenne N observa— 
tions en procédant objet par objet et au plus à peu près 1,085 x 
N Hh en utilisant la tactique que l'on vient de décrire, résul- 
tat qui est bien voisin du minimum N Hp qu'impose le théorème 
fondamental de la théorie de t'information. 


Rappelons pour terminer que la procédure proposée par 
DORFMANN qui a le premier étudié les possibilités des méthodes 
de groupage, mais en se limitant aux problèmes de diagnostic, 
est ce que l'on pourrait appeler une procédure ultra simple. 


En effet DORFMANN ne considère qu'une seule observation de 
groupe suivie, — si elle est positive -—- d'un diagnostic objet 
par objet. 


Cette procédure ne réalise évidemment pas l'économie la 
plus grande possible mais peut présenter un intérêt certain dans 
la pratique quand les propriétés déterministes du modèle ne sont 
pas rigoureusement valables (en particulier si la liaison "neu- 
tre" entraîne négatif est de type stochastique). 


UN CAS PARTICULIER DE MODÈLE A STRUCTURE PLUS COMPLEXE 
VÉRIFICATION D’UNE TABLE DE COVARIANCE 


Toujours à titre d'exemple d'application des principes gé- 
néraux, nous étudierons un cas pratique où l'ensemble E des en- 
sembles admissibles est restreint par des considérations struc-— 
turelles imposées à l'avance, 


Soit xjÿ (i = 1, 2 ..... k) ;jj=1,2,....,n) les k séries de 

n valeurs numériques dont on a calculé les{[X] covariances, 11 est 
d'usage de vérifier l'ensemble des calculs (1) en formant la 
quantité Zj = 2j xiÿj et en comparant les deux expressions Var Z, et 
Zi var xi + 2Zii' cov (xixi') qui doivent être égales, On admet 
que le résultat "négatif" de cette observation, c'est-à-dire 
l'égalité des deux expressions garantit que tous les objets sont 
"neutres" (c'est-à-dire que chacun des covariances a été calcu- 
lée exactement). 


Voyons comment procéder pour retrouver le plus rapidement 
possible une erreur qui a été décelée par la méthode précédente, 


(1) A moins que l'on ait employé des méthodes telles que celles de JOWETT, 

par exemple, qui donnent automatiquement une vérification des calculs. 

(Cr.J.Roy.Stat.Soc. (B) 1X.(1949) p 89-90- et HAMMERSLEY (1952) Biometrics- 
(8) p.156-168. 
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Naturellement il est difficile de çchiffrer exactemænt le coût 
réel en temps des diverses opérations possibles.Nous ferons donc 
l'hypothèse très simple et assez rapprochée de la réalité que le 
coût est le même pour toute observation élémentaire consistant à 
comparer la variance de la somme d'un certain nombre de varia— 


hs cétedhs ce 


bles x;jobtenu par calcul direct à sa valeur déduite de la table 


des variances et covariances que l'on vérifie. D'autre part, il 
est souvent raisonnable de penser que 14 probabilité d'une erreur 
est assez faible pour que l'on puisse. considérer comme négli— 
geables les chances d'en rencontrer plusieurs dans le tableau. 


Enfin, le problème ne se pose seulement que si k est 
grand (disons plusieurs dizaines comme cela se présente typique- 
ment en psychométrie). La représentation graphique ci-jointe 
permet de rendre intuitifs les raisonnements, 


Le triangle O K K' symbolise la moitié inférieure gauche de 
la table des covariances et l'on fait correspondre les ordonnées 
aux indices k spécifiant la série des variables. Tout test basé 
sur le double calcul de la variance de la somme des kj premières 
variables revient donc à savoir s'il y a ou non une erreur dans 
le triangle O K; K'. 

La procédure consiste donc d'abord à choisir successivement 
les valeurs de k,;, k2.... etc et à effectuer les vérifications 
correspondantes, 


Conformément au principe des tactiques d'ordre æéro, on 
commencera donc par vérifier les covariances entre Îles k: #T k 


premières variables ce qui signifie que l'on choisit K tel que 
la Pons À d'avoir un résultat négatif soit la plus voisine 
de i/2. 


Si le résultat est positif c'est qu'il y a sûrement une er- 
reur parmi les covariances de ces variables et l'on est ramené 
au problème initial, mais avec k, variables seulement, Sinon on 
vérifierait les covariances entre les k + k" = k premières va— 
riables en prenant k'!' de telle sorte que soit minimum la quan- 


BE … 


qui détermine l'écart entre les probabilités de cette nouvélle 
observation et la valeur optimale }/2. Si ce nouveau résultat 
était encore négatif on choisirait une nouvelle valeur k''! à 
l'aide d'une équation analogue et il en serait de même si le ré- 
sultat était encore positif, 
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Après une suite de semblables observations, l'erreur se 
trouve localisée parmi les covariances entre une certaine va— 
riable x; et les x'i (i< i') et il est alors probablement préfé- 
rable de la rechercher directement, 


A titre d'exemple de l'efficacité d'une telle procédure, on 
peut calculer que s'il n'y a effectivement qu'une seule erreur 
parmi les 45 covariances calculées entre dix variables, celle-ci 
peut être localisée en moyenne en 9,0 observations élémentaires 
seulement. 


IV. - PROBLÈMES DE TRI 


GÉNÉRALITÉS 


11 est intéressant d'envisager les problèmes de tri enre- 
lation avec des probabilités d'absorbtion ; considérons en effet 
un observateur dont la situation sur le treillis des positions T 
se modifie en fonction du résultat de ses observations. Dans le 
cas des problèmes de diagnostic, T était fini et ie processus se 
terminait quand l'observateur était parvenu à une position D. 
Dans les problèmes de tri, au contraire, T est supposé avoir un 
nombre infini de générateurs et le processus ne s'arrête que 
quand il atteint une position caractérisée par le fait que l'é- 
tat de N°7 objets est neutre et celui de N* autres marqué. 


11 nous faudrait donc trouver une procédure telle que la 
somme infinie : Z Pr (&j) L (@i) soit minimum et nous indique- 
rons des méthodes pour obtenir des solutions approchées dans le 
cas où l'un des deux nombres N° ou N* est nul, c'est-à-dire où 
l'on se propose seulement de trier des objets neutres ou des ob- 
jets marqués, Nous ferans en outre l'hypothèse que toutes les 
probabilités élémentaires sont égales, 


TRI D’OBjETS NEUTRES 


Remarquons d'abord que si une nouvelle observation élémen- 
taire a donné un résultat positif, il faut évidemment laisser de 
cfté les objets sur lesquels elle a porté puisque toute nou— 
velle observation comprenant l'un d'eux aurait plus de chance 
d'être positive que s'il n°y figurait que des objets libres, 


Une procédure optimale consistera donc à faire des observa— 


(n-1) sur des lots de n, objets libres jusqu'à l'obten- 


(n) 


tion d'un résultat négatif; puis à recommencer sur des lots X: 
de n, puis sur des lots de n,.....nx; les nombres n4,, N3, Neo 
nÇ, ayant pour somme N, 


tions X: 


A chaque fois il s'agira donc d'une distribution binomiale 


négative (distribution de PASCAL) avec le paramètre (1-p) ni, Le 


nombre moyen d'observations élémentaires sera : 


n.— |-1 à 
Été (er (rer | S die (herbes 


1=1 
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Pour minimiser cette expression on observera d'abord si le 
nombre k ést déjà fixé, la plus petite valeur de la somme cor- 
respond à : 


É (ip) + ete Cp 
où n, est le plus grand entier contenu dans k, r' est le résidu 
de N, modulo k et enfin, r = (N-r')k puisque l'on a toujours : 


1 1 2 
RS T LR ————  ———— > —— 
(1 S. p)"° L4 (1 -p) notV (à _ p)"° 


Pour déterminer maintenant l'ordre de grandeur de n, nous 
supposerons r' négligeable par rapport à k . On a alors : 


L +# ——— (1 -p) "0 qui est minimum pour n= -1/10g(1-p) 


On obtient ainsi pour p petit et N très grand, la valeur : 


L + Ne 7} Log (1/1-p) (où e désigne la base des logarithmes na- 
turels) du nombre moyen d'observations élémentaires nécessitées 
par la procédure optimale, 


TRI D’OBJETS MARQUÉS 


Nos connaissances sur ce sujet sont beaucoup moins avancées 
et nous nous restreindrons au cas où l'on veut trier un seul ob- 
jet marqué et ceci en employant exclusivement des procédures 
simples (c'est-à-dire qui ne comportent que des observations 
élémentaires Xj ordonnées par inclusion), 


11 est vraisemblable que les procédures auxquelles nous 
aboutirons sont rigoureusement optimales, mais nous ne possédons 
pas encore la démonstration de cette hypothèse, 


L' (n) représentera le nombre moyen d'observations à effec-— 
tuer quand on sait déjà que X(M)* où Xest un ensemble de puis— 
sance n, 


Dans les hypothèses où nous nous plaçons, on effectuera 
donc d'abord des observations sur des Xi (no) jusqu'à obtention 
d'un résultat positif, puis à ce moment on recherchera un objet 
marqué dans le dernier ensemble ainsi observé, 


On a donc 3 


Lin) = (Pr(xio)) à L(no) = 1/(1-9%°) + L' (ne) 


en particulier (Cf. plus bas) : 
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2 ; 4 
ACT RS ER ER BEN 
1 -1q 
3 —- 2 q4 
ou suivant la nature de la seconde observation : — RER 


Le problème se trouve maintenant reporté sur le calcul de 
L'(n) pour une valeur donnée de q. 


La règle suivante permet d'abréger les calculs : 


SSL IerSSIUnN< N/2,alors l'observation d'un sous-ensemble 
Y-Y”' de Xn est plus efficace que celle de l'ensemble complémen- 
taire Zz=y(n-n") 


On a en effet (puisque nous nous limitons aux procédures 
simples) : 


Si on effectue Y : 
tn) kr oPr (YCEXT ) sx°Lt (nent) + Pr (Y'IX ) ENG) 
Si on effectue Z 5: 


Ettt(n) = h+ Pr (Z Lx x L' (n'}) + Pr (zt| x) x L' (n-n') 
soit encore : 
Pr (x) x(L'! (n) = L'''(n)}= L' (n') x Pr(yt)x (1-Pr(Z-)) 


-Pr (Z+) x (1-Pr (y))L(n-n'). 
d'où le résultat puis n'<£<n-n' entraîne évidemment : 


L (n') £ L (n-n') 


Pour les premières valeurs de n on trouve alors les fonc- 
tions suivantes ; 


L(n) = 3 p(1+2q+2q2)(1-q°)" (Procédure 1: a(b)cf. notation 
du chapitre précédent). 


n = 4:si q »>0.7549,. (racine de x3 + x2 — 1 = 0) 
Procédure ab, (c), a. 
L'=p (2+2q + 2 q? + 2 4 }-(1- gt)" 


siiu£ D. 1340 ces 


Procédure a,(b}), (c) 

p'(1 +°21q + 2 + 3 d + 3 ) (1-q*) 
n = 5:si q>0.6823 .,. (racine de x4 + x + x? - 1 = O) 
Procédure ab,(c, d), a 

Do(2 + 24 + 204 + 3.a+)2,qt).(1.- gs)" 


sic 0.6821 :.. 
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Procédure a,(b,c,d). 
p (1+2q +3 aq? + 4 q+qt) (1-q$)! 


Ce calcul devient rapidement inextricable quand n croit et 
nous nous bornerons aux indications suivantes :; 
S ADS LE = 0,382 ..….: trier objet par objet. 
si x,= 0.2451<p< 0.382: examiner des lots de 2 jusqu'à un ré- 
sultat positif. 


si x1= 0,1809£p£Xo examiner des lots de 3 jusqu'à un ré-— 
sultat positif. 
(1 — x) et (1 -x, ) sont respectivement les racines de 
x3* %2-= j'et dé”xt F"x2 21). 


La situation est doné très semblable à celle où nous nous 
sommes trouvés dans l'étude des problemes de diagnostic et nous 
sommes conduits à faire appel à des méthodes d'approximation, 


POSSIBILITÉ D'EMPLOI D’UNE INFORMATION 


A — Cas des objets neutres, 


Nous avons vu dans la première partie que l'information H 
attachée à l'opérateur [q d/ d glg=o livrait le nombre moyen de 
fois où l'évènement de probabilité q était réalisé.L'information 
Ho (X) associée à l'observation X nous donne donc exactement ce 
que nous cherchons puisque, comme on l'a vu, il est impossible 
dans notre modèle d'apprendre qu'il existe un objet à l'état 
neutre sans l'identifier du même coup. 


On vérifie facilement que H$(X) est maximum quand les n ob- 
jets de X sont libres, enfin n est déterminé par la condition 
que HQ(X) = q" x n° + (1 -q') x O = n q" soit maximum, 


Ceci redonne bien la règle: nos = - 1/logqget la même limite 
inférieure asympotique du nombre des observations, 


B — Cas des objets marqués, 


Considérons maintenant ce que donnerait l'usage de l'infor- 
mation H, associée à [p d/ 4 pJr-odans le cas des objets marqués, 


Tout d'abord H,;(X) pourrait être nul alors que manifestement 
un pas a été fait vers la solution : par exemple si on sait déjà. 
que (ab) l'observation de a termine la procédure. 


Pourtant : 


P 
H; (a | ab) = sta) | PART -p}(1-a2) "[Pd Log PA 
ap OR 2e AMarl CCE 


p=0o 


est nul puisque l'on savait déjà que UN ob— 
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jet au moins était marqué et que l'observation de a n'a pas 
changé ce minimum, 


_ Inversement H; peut être assez grande bien que l'utilité de 
l'observation soit fort restreinte du point de vue du tri, Par 
exemple si l'on sait déjà que : 


(abcd)*, (abef)*,(abgh)‘ à l'observation(c e g)correspond un gain 
d'information non nul puisque (ceg)* entraînerait qu'au moins 
DEUX objets au lieu d'UN seul soient marqués. 


La raison de cette insuffisance est évidemment due au fait 
que — contrairement à ce qui se passe pour l'état neutre — l'i-— 


dentification d'un objet marqué n'est pas équivalente à la preuve 


de son existence, 
Nous nous limiterons donc, comme nous l'avons déjà fait 
plus haut, aux procédures simples et nous $supposerons que nous 


savons déjà que l'ensemble a de puissance n contient un objet 
marqué, Le gain d'information H! associée à[ Lis aura alors ur 


valeur finie pour toute observation d'un sous-ensemble X, de 
puissance m de Y. En effet 


H! (XnlYa) = Pr(XnlYñ)Log m = Pr(XslY#) Log (n-m) + Log n 


parce que d'une part Yf entraîne seulement qu'un seul objet soit 
marqué et ceci peut être de n manières différentes et, d'autre 
part, après l'observation de Xm ce nombre de possibilités est 
restreint à m ou n-m, 


Ce résultat est d'ailleurs intuitif puisque, à la constante 
1/Log? près, Log n donne le nombre moyen d'observations néces- 
saires pour achever le diagnostic. 


Montrons qu'ici encore il vaut mieux si mÆ<n/2 observer Xm 
que l'ensemble complémentaire Xy-m On a en effet à comparer 3: 


(1-q") Log m + (q"- q") Log: (n-m) 
avec 3 
(1 -q"") Log, (n=-m) + (q""- qd) Log, m 
qui est certainement plus grand en vertu des inégalités 3 
Log m£<Log (n-m) et (q""- q") = q""(1-q") < 1 -q" 

Théoriquement il faudrait résoudre en m l'équation:[H! = ma- 
ximum, Dans la pratique il semble suffisant de considérer le 
problème comme un problème de diagnostic et de procéder comme il 
a été indiqué dans le chapitre précédent une fois que l'ensemble 


initial positif Yno a été obtenu. Le coût total en moyenne de la 
procédure est alors 3: 


LU=11/Pr (YS )+:Logz:n0 


ce qui conduit, pour p petit, à déterminer ns par l'équation: 
dL 
dn 
tisfasse à : 


= 0 c'est-à-dire à choisir n, de telle sorte que Q = q"° sa- | 
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Lies, £ 1 = O0 c'est-à-dire encore à prendre 3 
(1-Q) Log2 


1.71006 ... | > 
ny = Log 4 puisque Q = 0.51293... 


Nous pouvons donc considérer comme pratiquement résolus les 
deux problèmes de tri que nous nous étions posés, I1 faut cepen- 
dant remarquer que dans le second cas, ia question du choix de 
la valeur no qui caractérise les premières observations Ÿ ne 
peut être résolue autrement que par un recours à un raisonnement 
extérieur au type d'information employé. C'est là une déficience 
de l'information H' que nous avons du utiliser puisqu'elie ne 
s'applique qu'à partir du moment où l'on a obtenu un résultat 
positif. À son tour ceci résulte du caractère assez grossier de 
l'opérateur associé à l'information. Il est certain que si l'on 
voulait résoudre des problèmes de tri moins éléméntaires, il 
faudrait recourir à des considérations plus profondes sur les 
zéros des polynomes P (p) car c'est d'eux que dépend en défini-— 
tive toute information de ce type. Des calculs encore fragmen- 
taires semblent indiquer que des règles simples pourraient gou-— 
verner la distribution de ces valeurs suivant la position@ Il 
y a là un domaine de recherches intéressant en lui même du point 
de vue algébrique, mais aussi extrêmement prometteur par les 
possibilités qu'il offre de mieux comprendre la signification et 
le rôle des opérateurs linéaires définissant les informations, 


V.- PROBLÈMES DE TEST D'HYPOTHÈSE 


TEST DE L'HYPOTHÈSE qi < q< 4o 


Nous nous limiterons au cas très particulier où la fré= 
quence q des objets neutres dans une population infinie étant 
inconnue on se propose de choisir entre les deux hypothèses. 


H, 5 q est supérieur à une certaine valeur donnée q 


H, 3 q est inférieur à une certaine valeur donnée q,<q, 


Si l'on se fixe en outre les probabilités maxima @et (à d'ac— 
cepter H, quand q = q; et d'accepter H,; quand inverse nt q = y 
on sait qu'une procédure optimale consiste à utiliser le test 
séquentiel de WALD; mais ici de nouvelles possibilités sont ou- 
vertes à cette méthode du fait que l'on peut remplacer l'obser- 


vation élémentaire (x) s: l'objet x pris au hasard est-il ou non 


marqué ? par l'observation d'un évènement (X dont la probabilité 
est une fonction P(q) et l'on peut se demander s'il n'est pas 
possible d'abréger ainsi le nombre moyen des observations néces- 
sitées par le test, 


Comme on l'a vu dans la première partie, le nombre moyen 
d'observations indépendantes de@est de la forme # 


K . K! s x L4 
W(0) (si q =q) et Wa) si q = q, où K et K' ne dépendent que 


seclastéte die 
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de œet Pet où W est "l'information de WALD", attachée à Ac'est- 
a-dire 3 


W(i) = P(qi) Log L Et + (1-P(qi)) Log nu 


11 semble difficile de discuter directement W d'autant d'ail- 
leurs qu'il faudrait considérer à la fois W (0) et W (1). 


En nous basant sur les inégalités obtenues dans la deuxième 
partie nous remplacerons ce problème par celui de rendre maximum 


P (qi) - P (qj). 

Supposons donc qu'un certain nombre d'observations élémen-— 
taires résumées dans le mot Œ'aient été effectuées et comparons 
la différence : 


Pr (x) -Pr (x-|@) où X est une observation de n 
q=qo qa=q1l 


objets pouvant appartenir au mot À à la différence [Pr(x") 


- Pr CDA 21 relative au cas où les n objets sont libres, 
= 


On a Pr(X= |*)= q" Q R-'où Q et R sont les polynomes en q 
définis par R = Pr( At) et Q= Pr( B*) avec B*xt= Utx*; d'après 
ce qui a été vu dans le deuxième chapitre on a Q£R et la deu- 
xième différence ci-dessus est plus grande que la première quand: 


o_qMt > go Aldo) _ qi Q (ai) 
BTE es R (go) À R (q1) 


Une condition suffisante pour que cette inégalité soit sa- 
tisfaite est donc que q" (1- Q(q) / R (q))soit fonction crois- 
sante de q ou encore que l'on ait identiquement 3: 


d 


Dans ce cas (dont nous étudierons la signification au cha- 
pitre suivant), il est préférable d'observer n objets libres que 
les n objets deX. 


En particulier si,@' était simplement l'observation Y* 
d'uniot de m objets, il y aurait avantage à choisir un X dis- 
joint de Y . 


Nous sommes ainsi conduits à définir notre tactique optimale 
d'ordre zéro comme consistant à remplacer grâce au groupage, le 
test de (q>qo ou q£<q3) par celui de (q'> q5° ou q'& qf ) avec 
no tel que W(i) soit maximum et à procéder ensuite comme dans un 
problème ordinaire d'analyse séquentielle. 


En ce qui concerne la détermination de n, nous n'avons ob— 
tenu aucun résultat simples il sera donc recommandé de chercher 
d'abord la valeur nj de n telle que a - qi" soit maximum puis 
par tâtonnement de rendre les plus grandes possibles W(O) et 
W(1). Le tableau (page 107) donnant pour des valeurs  typi- 
ques de qo et de q, la valeur qui rend maximum la différence 
qè — q; permet de faciliter ces calculs. On remarquera que la mé— 
thoëe a un domaine d'application très large puisqu'il n'est pré- 
férable de faire les observations objet par objet que si q,+ gq; 
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est plus petit que l'unité. Enfin, on pourra noter que si cer- 
taines conditions matérielles rendent aisée l'observation des 


mots symétriques auxquels il a été fait . allusion à la fin du 
chapitre III, ceux-ci fournissent une transformtion q>P(q) 
particulièrement efficace pour le test de q< m/n. 


TEST DE L'HYPOTHÈSE:4q; PLUS PETIT OÙ PLUS GRAND QUE q: 


Le problème, ici, est de savoir si la fréquence des objets 
neutres dans deux populations infinies E4 et E,:, est la même ou 
non, Nous supposerons que l'on a décidé d'employer la méthode de 
A; WALD qui consiste, après avoir effectué un tirage aléatoire 
dans E4 et dans Ey à observer selon laquelle des quatre modali— 
tés suivantes s'ést réalisé un certain évènement & construit à 
partir d ces objets, 


d\et &;ou bien Xiet Az c'est-à-dire Hréalisé ou non à la fois 
dans les deux populations, 


Üiet Hz;ou bien Hiet WM c'est-à-dire(l réalisé seulement dans 
l'une des populations. 


Pr ( +) étant une fonction croissante de p = 1 = q, la 
comparaison du nombre des cas où Utet Ü; à ceux où {3 et US donne 
un test commode et d'une efficacité très suffisante de l'hypothè 
SEC FC 

Nous devrions donc considérer comme précédemment quels sont 
les mots qui rendent une semblable procédure la moins coûteuse 
en observations élémentaires, De fait, il ne peut en être ainsi, 
tout au moins dans le cas général, car le test basé sur Üest un 
test de nature chaque fois différente selon le choix de ce mot. 
En effet, si l'on prend le cas considéré par WALD où @ estun 


seulmobjet, x; ce que l'onttestera. c'est la présence du point 
[as do) à l'intérieur du domaine où est satisfaite l'inégalité : 


nn CU, domaine ui n'est en aucune manière équiva— 
(la) S2 à ee 
lent, même si l'on aboutit aux mêmes probabilités d'erreur de 
première et deuxième espèce, au domaine 


uo 


qi (1-q",) 


u'o < 


57. <u; correspond à un test où@est une observa- 


tion élémentaire sur un lot de n éléments, On pourrait arguer 
qu'il en était de même dans le chapitre précédent et que là 
aussi les "operating curves'" étaient modifiées par l'utilisation 
du groupage. Mais du moins conservait-on ce qui paraissait l'es- 
sentiel du test à savoir des valeurs données des probabilités 
d'erreurœet quand l'une des deux hypothèses H, ou H4 était 
vraie alors que rien de semblable n'existe dans le cas présent, 


Nous nous placerons donc à un point de vue en quelque sorte 
préliminaire et nous indiquerons seulement les améliorations ma— 
nifestes que peut produire le remplacement de q par q" 


PPT EE 
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n 
| d'y (1-q".) 
Soit donc q, q, et soit le rapport —= © ;: }X est toujours 


n n 


plus petit que l'unitéet nous pouvons admettre que l'on aura avan- 
tage à remplacer n par n' au moins quand les deux conditions 
suivantes sont remplies # 


n ?Ant Puisque dansce cas les probabilités Pr(Af A: | 


et Pr (A3 A ) seront plus éloignées de 1/2, 


2° - La probabilité P que (At Aÿ ) ou que (A; A3 ) n'aura 
pas augmenté, 


Les résuliats suivants facilitent la détermination de la 
valeur optimale de n quand on a déjà choisi le type "d'operating 
curve" que l'on désire réaliser. 

1° = Xest une fonction décroissante de n 

En effet l'inégalité Àn>h+1i se ramène après quelques 


transformations simples à l'inégalité classique : 


1 = x RUE 
2 A 2 
x MENT es 
Last] 1 
2° —- Si q, = q, = q la valeur minimum de P correspond à n 


tel que q" = 1/2 ce qui est immédiat par calcul direct/ 


VALEURS OPTIMALES DE n 
pour certaines valeurs courantes de q, et q; 


Valeurs de 
qd; Valeurs de do en pourcentage 


en pourcentage 
50 55 60 65 70 75 80 85 90 


55 F 
60 2 ouv2 

65 ETATS 

70 ATP AS, Re 3 

75 2RDAE2 SAR 3 

80 2 SUÉLIIT API ESS ENS 

85 y DA ea EE ET PT OUTRE : TN 

90 314 Art 5 CAS DEEE 


95 4 5 5 6 6 7 9 11 14 
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VI. - PROBLÈMES D'ESTIMATION 
FRÉQUENCE DES OBJETS MARQUÉS DANS UNE POPULATION INFINIE 


Les problèmes d'estimation au sens classique de la statis- 
tique mathématique offrent un large domaine aux méthodes de 
groupage que nous préconisons., Nous nous bornerons a PraiterMLier 
deux exemples typiques. Faisons d'abord observer que l'usage de 
l'information de FISHER est à peu près indispensable dans ce 
chapitre, car le calcul de la variance exacte d'une estimation 
est presque toujours extrêmement laborieux. Nous considèrerons 
donc que le but à atteindre par une procédure quelconque est de 
choisir les observations successives de telle sorte qu'après N 
d'entre elles la limite supérieure de la variance de la valeur 
estimée du paramètre soit le plus faible possible, Il est clas- 
sique que cette limite supérieure soit atteinte asymptotiquemmt 
quand N tend vers l'infini. 


Dans ce premier chapitre, nous traiterons le cas où le pa- 
ramètre inconnu p = 1 —- q est la fréquence des objets marqués 
dans une population infinie et où toutes les observations élé- 
mentaires sont possibles a priori. 


Supposons que nous ayons déjà effectué un certain nombre 
d'observations résumées par l'ensemble des deux mots (“tA-. 


Evidemment nous devons laisser de côté les objets qui figu- 
rent dans A puisque leur état est connu. Considérons maintenant 
un lot X de m objets dont certains peuvent figurer dans ŒŸ , La 
quantité d'information attachée à l'observation de X dépend des 
probabilités s Pr ( X'|*) et Pr (xX-|4*) qui sont respectivement : 


Pr (xt Œ et Pr «(A d* 
Pr (O* Pr A) 

Nous écrirons Pr ( Ü ) = P . Comme nous l'avons vu dans le 
second chapitre, l'évènement X-Atest résumé par X et un autre 
mot 8*qui se déduit de + par suppression pure et simple des ob— 
jets de d*qui appartiennent à X . On a donc Pr (X-=4*) = q" Q en 
posant Q=Pr(8*t) et, par définition même, comme 8* entraîne {+ on 


a Q<P,l'égalité ne pouvant avoir lieu que si Atet X n'ont aucun 
objet en commun, 


Dans ces conditions, l'information attachée à l'observation 
de X est 3 


m d 2 -2 & — _ 
Q) - q Du r-g P)# PC g1tr4 0) te 
et peut se mettre sous la forme 3: 


2 -1 
Le [rtasks al Fe à 

Q dqpP a 
qui se réduit à s ne Ée (=) 


quand let Q sont disjoints. 
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P 
CRD plus grand que 1, il ressort de cette formule 


que l'information apportée par ces n objets est sûrement plus 
petite que l'information apportée par n objets libres (c'est-à- 
dire ne figurant pas dans W), 


Nous allons donner quelques cas où cette condition est rem- 
plie : 


x + 
1042 Soit (t “20” consistant en un lot de n objets dont on 
sait qu'il contient au moins un objet "marqué", soit m le nombre 
d'objets de C* qui appartiennent aussi à A; on a 5 P= 1 — q" ; 
Qu= 11 = qU" 
d s 2 n-m— 


LR NE 


: (n=m-nq" + mg”) Ÿ o 

x 
d'après l'inégalité classiqyue : n>m cnirafge £ n/m 
1 —-x 


En particulier si m = n c'est-à-dire si, sachant que En on 
effectue l'observation d'un lot d'objets pris parmi ceux-ci 
l'information apportée est sûrement inférieure à (1-q"-M) fois 
l'information que procurer#æient ces objets si l'on ne savait pas 
à l'avance qu'ils font partie d'un lot ayant donné déjà un ré- 
suiltat positif. 


29 = Soit q très voisin de 1. D'après la deuxième méthode 
indiquée au chafitre II, on peut écrire s 


P = pr (a, +ApPe...o) et Q = p* (b, + b, p + ...)où r (respec- 
tivement r'})“est le nombre minimum d'ofjets qui doivent être. 
marqués pour que l'on puisse avoir GAt(respectivement Bt) et où 
ai (respectivement b,;) est le nombre de systèmes différents de 
Tr (respectivement r') objets marqués qui permettent 4t(respec- 
tivement #). Puisque ft se déduit del* par suppression de cer- 
tains objets, on a certainement, soit r <Tr, soit r = r' et.ab, 


Dars le premier cas on a donc au moins pour p tendant vers 
d P 
zéro: -——2>0.,. Par conséquent, l'observation de X apporte à la 


dq Q 


limite moins d'information que l'observation de n objets libres 
quand X et Œ entraîne l'existence de plus d'objets marqués 
que n'entraîne U*seulement ce qui est un résultat assez surpre- 
nant a priori, 


A titre de contre exemple, nous citerons enfin le cas de 


Œ = (a b)* (b c) 


donc pas entièrement positif, 


ve 


X2= ) atstB=rbaetnoù ar P/Q =11  =12-den'est 


On a d'ailleurs ici pour valeur de l'information : 


{asrat) a (1-0)! (1+q-q2) ‘ et le rapport de cette quantité à 
1/qp qui est la valeur classique de l'information apportée par 
l'observation d'un seul objet libre, tend vers 2 quand q tend 
vers 1 ce qui montre que les résultats précédents ne pourraient 
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pas être étendus sans précaution à toutes les positions possi— 
bles, | 


La tactique optimale s D'après ce que l'on vient de voir, 
quels que soient les nombres n et m la deuxième observation que 


l'on a à effectuer après avoir obtenu un résultat positif sur un 
lot de n objets n'apporte jamais tant d'information que quand 
elle porte sur m objets tous distincts des précédents. 


11 sera donc conforme aux principes des tactiques optimales 
d'ordre zéro que de choisir unnombre n tel quel'observation de n 
éléments soit la meilleure possible dt de répéter cette obser — 
vation autant de fois qu'il Sera nécessaire sur des objets tou— 
jours nouveaux pour obtenir la précision voulue, 


Les tableaux I et II donnent les valeurs no pour un certain 
nombre de valeurs de q: 


Pour p voisin de zéro, il est intuitif que n, doit être 

grand. En dérivant par rapport à n l'expression 

n-2 2 ni 

q n (1-q ) 
on vérifie que, pour g donné, la courbe représentant la quantité 
d'information en fonction de n a bien un seul maximum et que ce— 
lui-ci correspond à n tel que q"= Qo ; où Qoest la racine unique 
entre zéro et un de l'équation 


1 - Q + 1/2 Log Qn = 0 


Ce résultat conduit à la règle pratique suivante 3 


n doit être tel que la probabilité d'une observation négative 
soit la plus voisine possible de 1/5 


En effet, le calcul donne Q,= 0.2031882... 


(logs Q= 1.3078985.) et il est assez curieux tout à la fois que 
cette valeur soit si éloignée de la valeur 1/2 qui äpparaissait 
dans tous les problèmes de diagnostic et si près d'une autre va— 
leur simple 1/5. I1 est à noter que cette règle fournit un moyen 
pratique de s'approcher de n optimal même si initialement on 
ignorait la valeur de q avec une approximation suffisante et si 
l'on ne voulait pas effectuer une estimation intermédiaire, 


La tactique que nous proposons revient donc à remplacer 
l'estimation directe de q par celle de q" puis à en déduire q. 
L'équation au maximum de vraisemblance donne la formule très 
simple G = (N-/N)V"0 où N est le nombre de lots observés et N- 1e 
nombre de ceux d'entre eux qui ont donné un résultat négatif, 


Malgré l'importance de la réduction de variance qui résulte 
d'un groupage optimal quand p est petit(elle s'exprime par un co— 
efficient de l'ordre de 1,54 (p-p*12) il est nécessaire de sou 
ligner que l'emploi de cette méthode reste probablement limitée 
au cas où l'on envisage d'effectuer un nombre N d'observations 
assez élevé en raison des distorsions qu'inflige l'opération 
“racine n-ième" à la distribution de la valeur estimée, 


Pour N modérément grand, il est préférable de ne pas négli-— 
ger le fait que 4 présente une erreur systématique, [r étant la 
fréquence des résultats positifs dans les N observations nous 
développons en puissance de r la valeur estimée 4 = (1-r)/0, 


Le à 2 Jet AE 


oi 
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D'autre part, les expressions classiques des moments autour de 
zéro d'une variable binomiale donnent 3; 


k No ño }k-1 
k nn k EVER LA EC ER és 

valeur moyenne de r = -(1-q" ) Fe N 
en négligeant les termes dont l'ordre en N est inférieur à moins 
11 s'en déduit que, toujours avec la même approximation, la 


valeur moyenne de @ est donnée par : 


q +ne (no-1) qi (RERO PERS soit à peu près 


[1 + lee qui permet de corriger la partie principale de 
Le) 
l'erreur systématique, 


Signalons enfin,pour terminer, que — toujours pour p petit— 
la seule connaissance du fait qu'un lot de n objets contient au 
moins un objet marqué" apporteenviron 1/3(exactement (I+p/2)0.3288...) 
de toute l'information relative au paramètre contenu dans ce 


lot, 


UN PROBLÈME DE GÉNÉTIQUE MENDELIENNE 


Nous rappellerons sommairement qu'un individu peut -relati-— 
vement à une paire d'allèles a/A - présenter l'un des trois gé-— 
notypes (a a), (a A), ou (A A), les deux derniers étant indis- 
tinguables en raison du caractère "marqué" de l'allèle dominant, 
Donc quand nous dirons qu'un individu est phénotypiquement domi-— 
nant nous employerons seulement une locution équivalente à 
"l'observation de (x x) donne un résultat positif "en raison de 
la correspondance 


allèle dominant<—+ objet ‘''marqué" 
allèle récessif<—+> objet "neutre" 


Nous étudierons ici un problème d'estimation de la fréquence 
p d'un allèle dominant dans une population monogame, isogamique 
panmixique et en équilibre génétique ( c'est-à-dire telle que les 
fréquences respectives des trois génotypes (a a) (a A) (A A) 
soient respectivement q2, 2 p q, p2)quand l'échantillon prélevé 
contient à la fois des individus indépendants que nous appelle- 
rons "parents" et d'autres individus que nous appellerons "des- 
cendants" et qui résultent du croisement des précédents. 


En effet, d'après la génétique mendelienne, les descendants 
d'un croisement (x x'}) X (y y') où x x' y y' symbolisent quatre 
allèles quelconques ont, indépendamment et avec des probabilités 
égales a priori, l'un des quatre génotypes (x y), (x' y), (x y') 
TAC UT 

Par conséquent, si parmi les descendants d'un individu phé- 
notypiquement dominant on observe un individu récessif on peut 
en conclure que ce parent était hétérozygote (c'est-à-dire (a A) 
et non homozygote (A A). 
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Le problème que nous traiterons sommairement sera celui de 
l'éfficacité relative de la détermination+du phénotype soit d'un 
parent, soit d'un descendant pour l'estimation.de la valeur de q 
dans la population où a été prélevé l'échantillon, en supposant 
qu'on a déjà examiné un nombre assez grand de parents pour qu'il 
soit toujours possible de choisir des descendants de parents 
dont le phénotype est connu. Pour cela, nous calculerons les 
quantités d'information IX; attachée à la détermination de divers 
phénot ypes/ 


1° — PARENTS : Les formules du chapitre précédent (cas de 
deux objets libres) redonnent le résultat classique 1 = 4(1-q ) 


29 — DESCENDANTS d'un croisement (récessif x récessif). 
L'information est nulle puisque le descendant a, nécessairement, 
lui aussi, le phénotype récessif, 


39 — DESCENDANTS d'un croisemént (récessif x dominant). Ici 
nous devons introduire une notion supplémentaire s étant donné 
un couple (récessif x dominant) le fait qu'un seul de leurs des- 
cendants soit récessif permet de conclure que le parent dominant 
était hétérozygote et à partir de ce moment l'observation des 
autres descendants n'apporte rien, Nous préciserons donc en 
ajoutant ; "quand" m descendants déjà examinés avaient montré un 
phénotype dominant . 


On a alors : 


Probabilité a priori pour que le parent soit hétérozygote 
et qu'il ait m descendants dominant puis un récessif Ta - 


Probabilité a priori pour que les m + 1 descendants soient 
dominants # p? + 27"pq” 


D'où Im= 29" (1-q-q2") (1-9+g217") À 


49— DESCENDANTS d'un croisement (dominant x dominant). Des 
remarques analogues doivent être faites puisque le croisement ne 
donnera un individu récessif que si les deux parents sont hété-— 
rozygotes et dans ce cas la probabilité sera égale à 1/4. Les 
probabilités résultantes sont :(3/4)" p? q?. 


Et 4 p? q? (3/43" + 4 q p° + p* d'où enfin ! 
Im= 4(3/4)" (1+a)? (1+2q-3q2+q2(3/4)") ‘(1429-39 +92(3/4)")2 


5° — Nous calculerons finalement -l'information qu'apporte— 
rait la connaissance du génotype exact d'un individu dominant 
(cette connaissance pourrait résulter par exemple de l'examen 
d'un très grand nombre de descendants et d'une inférence statis— 
tique} On trouve $ 


Lace 2e) tiers 


Après ces calculs préliminaires, nous pouvons aborder la 
discussion des tactiques possibles 


19° —- Puisque l'examen d'un descendant ne peut nous apporter 
que de façon aléatoire une connaissance sur le génotype des pa— 
rents, on a certainement ITim£lg et Idm£&2 Ig mais en comparant. 
lg à Ip on s'aperçoit que si q(q+1) est plus grand que 1/2 


Los 
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(c'est-à-dire si q n'est pas inférieur à1( V3-1) = 0.366...),1a 
dichotomie (récessif/dominant ) apporte plus information que la 
dichotomie (homozygote/hétérozygote) parmi les individus à phé- 
notype dominant, Il ne peut donc être intéressant de considérer 
les descendant s des croisements (récessifs/dominants)que si q est 


inférieur à cette valeur puisque sinon il vaudra toujours mieux 
examiner le phénotype d'un nouveau parent, 


2° — Sous l'hypothèse que q <1/2, on vérifie par calcul di- 
rect pour les premières valeurs de m puis, en formant le rapport 
Irtm/lim+i qui tend vers: 


2 (1-9) (1-9/2) (1-qg/4) ?2>1 que Irmmest une fonction décrois- 
sante de m, 


Si donc on a déjà examiné un descendant d'un croisement 


(récessif/donminant) il est toujours préférable d'examiner un 
descendant d'un autre couple qu'un second descendant de celui-ci. 


3° — L'information 1,4 apportée par l'examen de ce seul des- 
cendant est q=' (1-q) ?. Elle n'est supérieure à 4 (1-g)' que si 
q est plus petit que (V41-5)= 0,178...,ce qui constituela va- 
leur critique pour l'examen des descendants de ce croisement, 


œ|— 


49 — De la même manière, on peut calculer l'information Ih 
qui serait attachée à l'observation d'une paire d'individus do- 
minants et qui permettrait de savoir s'ils sont ou non tous les 
deux hétérozygotes. On trouve : 


Eh = 46 (1+a) 7? (1-9) 7} (1+3 qq)! et cette quantité est sûrement 
inférieure à 4(1-q?)quand q > 1/2. 


59 — D'autre part Idmest sûrement inférieur [1° = 4 (1+q })? 
p-2(1+3 q) ?; puisque cette valeur dérive de Iémen faisant m-0 
au numérateur et m =© au dénominateur. 


Mais Il' n'est plus grand que 4(1-q2ÿ* que pour q> vw 0:63... 
et par conséquent, l'observation d'un parent nouveau apportera 
toujours plus d'information que l'observation d'un descendant 
d'un croisement (dominant x dominant ). 


La tactique que nous venons de décrire en fonction de q 
conduit donc à distinguer éventuellement trois catégories de pa— 
rents s 


Les récessifs, 
les dominants dont le descendant examiné est récessif 
les dominants dont le descendant examiné est dominant. 
Soient N,j, N2, Na le nombre d'individus de l'échantillon 
rentrant dans chacune de ces catégories ; la valeur estimée de 
q donnée par l'équation au maximum de vraisemblance est alors : 
Q = (2 Ni+ No ) (2 N,+2 N+2N,)" 


La valeur asymptotique de sa variance est : 


Ha) (la) (NN + A) 
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TABLEAU I 
No Valeurs limites de q No Valeurs limites de q 
0.859 
1 11 
0.333 0.871 
2 12 
0.525 0.881 
3 13 
0.633 0.889 
4 14 
0.701 0.896 
5 15 
0.748 0.902 
6 16 
0.782 0.908 
7 17 
0.808 0.913 
8 18 
0.830 0.917 
9 19 
0.845 0.921 
10 20 
0.859 
TABLEAU Il 
Valeur de q Valeur optimale de n 
0,900 15 
0.910 17 
0.920 19 
0.930 bp] 
0.940 26 
0.950 31 
0.960 39 
0.970 52 
0,975 63 
0.980 78 
0.985 105 
0.990 151 
0,995 320 
0.998 798 


0.999 1592 


CONCLUSIONS 


Peut être, pour conclure faudrait-il dresser l'inventaire 
des problèmes qui ont été soulevés et que nous n'avons pu ré- 
soudre, mais la variété des domaines dont ils relèvent rendrait 
sans doute cette énumération aride, 


11 est cependant trois questions qui nous paraissent d'un 
intérêt plus général et auxquelles mènent chacune des parties 
de ce travail. 


1° — L'extension du théorème sur les valuations des treil- 
lis de partition à des cas plus généraux que celui d'un ensemble 
de base fini. 


Sous quelles conditions topologiqyues les solutions indiquées 
sont-elles les seules continues ? 


Quelle est la nature des autres solutions dont laissent 
soupconner l'existence les résultats de EILENBERG et MAC LANE 
pour l'équation analogue (mais avec des arguments dans un groupe 
abélien et non un treillis) qui se rencontre en topologie algé- 
brique. 


11° —- La démonstration simultanée du théorème de FRECHET 
DARMOIS et du théorème d'optimalité de WALD comme cas particu- 
lier d'un énoncé plus général sur les informations, 


III° — La troisième question est plutôt une hypothèse basée 
exclusivement sur des résultats empiriques. 


On constate que lorsque l'on suit une procédure rigoureuse- 
ment optimale, le nombre moyen des observations restant à effec- 
tuer décroit uniformément, 


Dans quelle mesure est-ce là une propriété générale et 
comment pourrait-on l'utiliser pour trouver plus aisément ces 


procédures ? 
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